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An 深度 学 习 
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伸 经 网 络 与 深度 学 习 


伸 经 网 络 和 深度 学 习 是 一 本 免费 的 在 线 书 。 本 书 会 教会 你 : 


e 神经 网 络 ， 一 种 美妙 的 受 生物 学 启发 的 编程 范式 ， 可 以 让 计算 机 从 观测 数据 中 进行 学 习 
。 深度 学 习 ， 一 个 强 有 力 的 用 于 神经 网 络 学 习 的 众多 技术 的 集合 


伸 经 网 络 和 深度 学 习 目 前 给 出 了 在 图 像 识别 、 语 音 识 别 和 上 自然 语言 处理 领域 中 很 多 问题 的 最 
好 解决 方案 。 本 书 将 会 教 你 在 神经 网 络 和 深度 学 习 背 后 的 众多 核心 概念 。 


想 了 解 本 书 选 择 的 观点 的 更 多 细节 ， 请 看 这 里 。 或 者 直接 跳 到 第 一 章 开始 你 们 的 旅程 。 


译 者 的 话 : 
本 书 是 Michael Nielsen 的 Neural Networks and Deep Learning 的 中 译本 。 目 前 已 经 完成 第 


二 章 、 第 五 章 和 第 六 章 的 内 容 。 后 续 会 进行 剩 下 章节 的 翻译 。 如 果 想 要 合作 翻译 ， 提 供 意 见 
或 者 建议 ， 给 出 翻译 的 笔 误 ， 都 可 以 前 接 通 过 xhzhu.nju@gmail.com 联系 到 我 。 
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First Chapter 


GitBook allows you to organize your book into chapters, each chapter is stored in a separate 
file like this one. 
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在 上 一 章 ， 我 们 看 到 了 神经 网 络 如 何 使 用 栅 度 下 降 算 法 来 学 习 他 们 上 自身 的 权重 和 偏 状 。 但 
是 ， 这 里 还 留 下 了 一 个 问题 : 我 们 并 没有 讨论 如 何 计算 代价 函数 的 梯度 。 这 是 很 大 的 缺失 1 
在 本 半 ， 我 们 会 解释 计算 这 些 梯度 的 快速 算法 ， 也 束 是 反 同 传播 。 


反 向 传播 算法 最 初 在 1970 年 代 被 发 现 ， 但 是 这 个 算法 的 重要 性 直到 David 

Rumelhart, Geoffrey Hinton 和 Ronald Williams 的 1986 年 的 论文 中 才 被 真正 认可 。 这 篇 论 
文 换 述 了 对 一 坚 利 经 网 络 反 同 传 播 要 比 传统 的 方法 更 快 ， 这 使 得 使 用 利 经 网 络 来 解决 之 前 无 
法 完成 的 问题 变 得 可 行 。 现 在 ， 反 向 传播 算法 已 经 是 神经 网 络 学 习 的 重要 组 成 部 分 了 


本 章 在 全 书 的 范围 内 要 上 比 其 他 章节 包含 更 多 的 数学 内 容 。 如 果 你 不 是 对 数学 特别 感 兴趣 ， 那 
么 可 以 跳 过 本 章 ， 将 反 向 传播 当成 一 个 黑 盒 ， 忽 上 略 其 中 的 细节 。 那 么 为 何 要 研究 这 些 细节 
呢 ? 


答案 当然 是 理解 。 反 向 传播 的 核心 是 对 代价 画 数 C 关于 tw (或 者 5) 的 偏 导数 OC/Ow 的 计 
算 表 示 。 该 表示 告诉 我 们 在 权重 和 偏差 发 生 改 变 时 ， 代 价 画 数 变 化 的 快慢 。 尽 管 表达 式 会 有 
点 复杂 ， 不 过 里 面 也 包含 一 种 美感 ， 就 是 每 个 元 素 其 实 是 拥有 一 种 自然 的 直觉 上 的 解释 。 所 
以 反 向 传播 不 仅仅 是 一 种 学 习 的 快速 算法 。 实 际 上 它 还 告诉 我 们 一 些 细节 的 天 于 权重 和 偏 甜 
的 改变 影响 整个 网 络 行为 方面 的 洞察 。 因 此 ， 这 也 是 学 习 反 向 传播 细节 的 重要 价值 所 在 。 


如 上 面 所 说 ， 如 果 你 想 要 粗 览 本 章 ， 或 者 下 搂 跳 到 下 一 章 ， 都 是 可 以 的 。 剩 下 的 内 容 即 使 你 

ie ane E 

论 ， 所 以 会 音 党 给 出 本 章 的 参考 。 不 过 对 这 些 知识 点 ， 兢 算 你 对 推导 的 细节 不 太 清楚 你 还 
应 该 安 ii 


热身 : 伸 经 网 络 中 使 用 起 阵 快速 计算 输出 的 观 
点 


411% 


在 讨论 反 向 传播 前 ， 我 们 先 熟 悉 一 下 基于 答 件 的 算法 来 计算 网 络 的 输出 。 事 实 上 ， 我 们 在 上 
RE: 能 够 看 到 这 个 算法 了 ， 但 是 我 在 那里 很 快 地 略 过 了 ， 所 以 现在 让 我 们 仔细 讨 
i, oak ;x FE BE 4S BREDA: 2 BEDE 1 EE ER 


我 们 首先 给 pojawiaja | JEMY kth 个 神经 元 到 


(1) EMI I 个 神经 元 的 链接 上 的 权重 。 例 如 ， 下 图 给 出 了 第 二 隐藏 层 的 第 四 个 神经 元 到 第 
三 隐藏 层 的 第 二 个 伸 经 元 的 链接 上 的 权重 : 


null ww ai bbt. com DODODDDDD 





null 


Up is the weight from the ktt neuron 
in the ff —1)"" layer to the j** neuron 
in the PY layer 





这 样 的 表示 粗 看 比较 奇怪 ， 需 要 花 一 点 时 间 消 化 。 但 是 ， 后 面 你 会 发 现 这 样 的 表示 会 比较 方 
便 也 很 自然 。 奇 怪 的 一 点 其 实 是 下 标 7 入 的 顺序 。 你 可 能 党 得 反 过 + 来 更 加 合理 。 但 我 接 下 
会 告诉 你 为 什么 要 这 样 做 。 


我 们 对 网 2 — ne 似 的 表示 。 显 陈 地 ， 我 们 使 用 bu Riel gi 个 神 


经 元 的 偏差 ， 使 用 0; 表示 | 站 EJ 个 神经 元 的 激活 值 。 下 面 的 图 清楚 地 解释 了 这 样 表示 的 
anl: 


laver 1 layer 2 laver 3 





有 了 这 些 表示 ， lh 层 的 7 个 神经 元 的 激活 值 O ; 就 和 I 层 关联 起 来 了 (对比 公式 (4) 和 上 
一 革 的 讨论 ) 





> wa! +b; |, (23) 
k 


其 中 求 和 是 在 (! 一 1)” 层 的 所 有 神经 元 上 进行 的 。 AT PETA ASR 个 表达 式 ， 我 们 


对 每 一 层 | BEL- DREE w, Ej ak 列 的 元 素 是 "ik, 类 似 的 ， 对 每 一 层 1 
定义 一 个 偏差 向 量 ， 六 。 你 已 经 猜 到 这 些 如 何 工 作 了 一 ”偏差 向 量 的 每 个 元 素 其 实 就 是 前 面 给 


出 的 访 ， 每 个 元 素 对 应 于 /站 层 的 每 个 神经 元 。 最 后 ， 我 们 定义 激活 向 量 ol， 其 元 素 是 那些 


一 
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激活 值 “i。 


最 后 我 们 需要 引入 向 量化 函数 (Wa) 来 按照 息 阵 形式 重 写 公 式 (23) 。 在 上 一 章 ， 我 们 其 实 
已 经 碰 到 向 量化 了 ， 其 含义 就 是 作用 函数 (如 oq) 到 向 量 vw POSNER REA lv) 表 
示 这 种 按 元 素 进 行 的 画 数 作用 。 所 以 ，9?lV) 的 每 个 元 素 其 实 满足 ole); 三 00), AMA 
子 ， 如 果 我 们 的 作用 画 数 是 jz) = z ， 那 么 向 量化 的 了 的 函数 作用 就 起 到 下 面 的 效果 : 
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也 就 是 说 ， 向 量化 的 上 仅仅 是 对 向 量 的 每 个 元 素 进 行 了 平方 运算 。 














了 解 了 这 些 表示 ， 方 程 (23) 束 可 以 写成 下 面 的 这 种 美妙 而 简洁 的 向 量 形式 了 : 


qd = — o(w'a [一 ] +b’). (25) 


个 表达 式 给 出 了 一 种 更 加 全 局 的 思考 每 层 的 激活 值 和 前 一 层 的 天 联 方 式 : 我 们 仅仅 用 权重 
i 然后 加 上 一 个 偏 替 同 量 ， 最 后 作用 o BIŻ 


其 实 ， 这 就 是 让 我 们 使 用 之 前 的 矩阵 下 标 | ik 表示 的 初 因 。 如 果 我 们 使 用 了 来 索引 输入 
神经 元 ， 友 索引 输出 神经 元 ， 那 么 在 方程 (25) 中 我 们 需要 将 这 里 的 和 矩阵 换 做 其 转 置 。 这 只 
是 一 个 小 小 的 困惑 的 改变 ， 这 会 使 得 我 们 无 法 自然 地 讲 出 (BS) “应 用 权重 矩阵 到 激活 
值 上 ?3 这 样 的 简 间 单 的 表达 。 


at 


这 种 全 局 的 观点 相 比 神经 元 层面 的 观点 常常 更 加 简明 〈 没 有 更 多 的 索引 下 标 了 !) 其 实 可 以 

看 做 是 在 保留 清晰 认识 的 前 提 下 逃离 下 标 困 境 的 方法 。 在 实践 中 ， 表 过 式 同样 很 有 用 ， 因 为 

pa 了 实现 矩阵 乘法 、 向 量 加 法 和 向 量化 的 快速 方法 。 实 际 上 ， 上 一 章 的 代码 
经 隐 式 使 用 了 使 用 这 种 表达 式 来 计算 网 络 行为 。 


在 使 用 方程 (25) 计 算 a 时 ， 我 们 计算 了 中 间 量 > wa 十 b 。 这 个 量 其 tf 实 是 非常 有 用 
的 KÓZ 为 | 层 的 带 权 输入 。 在 本 章 后 面 ， A Ss, HF =(25)A R (AR 

| i I „I-1 | „I 
a a! = e(z), nawie ss G T a With +b, ag% 就 是 
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反 向 传播 的 目标 是 计算 代价 画 数 C 分 别 关 于 w 和 户 的 偏 导数 OC/0w 和 OC/Ob, w TLR 
向 传播 可 行 ， 我 们 需要 做 出 关于 代价 函数 的 两 个 主要 假设 。 在 给 出 这 两 个 假设 之 前 ， 我 们 先 
看 看 具体 的 一 个 代价 玉 数 。 我 们 会 使 用 上 一 章 使 用 的 二 次 代价 了 沙 数 。 按 照 上 一 节 给 出 的 表 
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nr, ZAMNAME FIIR : 
l | 7 
== 2 Ib») - a ON, (26) 


HA n 是 训练 样本 的 总 数 ; EA 练 样 本 江上 进行 的 ;Y — y(x) 是 对 应 的 目标 
sais LERNANEM:; a” 一 0" (2) UAT 2 MPR 各 输出 的 激活 值 向 量 。 


好 了 ， 为 了 应 用 反 向 传播 ， 我 们 需要 对 代价 画 本 数 做 出 什么 衬 的 前 提 假设 呢 ? 第 一 个 假设 就 是 
代价 函数 可 以 被 写成 一 个 在 每 个 训练 样本 r 上 的 代价 函数 C — C= 二 了 ,Cs 这 是 


— ly, „LIJ? 
AF ARAN BAF, 其 中 对 每 个 独立 的 训练 样本 其 代价 是 Ce = lly al 。 这 个 
假设 对 书 中 提 到 的 其 他 任何 一 个 代价 函数 也 都 是 必须 满足 的 。 


需要 这 个 假设 的 原因 是 反 向 传播 实际 上 是 对 一 个 独立 的 训练 样本 计算 了 20Cr/0w qq OC, /0b 
。 然 后 我 们 通过 在 所 有 训练 样本 上 进行 平均 化 获得 9C/0WwW 和 OC JOD, szyk, igi 
设 ， 我 们 会 认为 训练 样本 了 已 经 被 固定 住 了 ， 丢 掉 了 其 下 标 ， 将 代价 函数 C 看 做 局 。 

我 们 会 把 下 标 加 上 ， 现 在 为 了 简化 表示 其 实 没有 这 个 必要 。 


第 二 个 假设 融 是 代价 可 以 写成 人 利 经 网 络 输出 的 函数 : 


cost C = Cla”) 





例如 ， 二 次 代价 函数 满足 这 个 要 求 ， 因 为 对 于 一 个 单独 的 训练 样本 r 其 二 次 代价 函数 可 以 写 
作 : 


l L ij 2 l | LĄ2 ' 
C= >lly-a*| = z Li - a (27) 


REMON AE EAN. SA, RPA ick Bea. 记 住 ， 输 入 的 训练 
样本 了 是 固定 的 ， 所 以 输出 同样 是 一 个 固定 的 参数 。 所 以 说 ， 并 不 是 可 以 随意 改变 权重 和 偏 
差 的 ， 也 就 是 说 ， 这 不 是 神经 网 络 学 习 的 对 象 。 所 以 ， 将 C 看 成 仅 有 输出 激活 值 a” 的 函数 

合理 的 ， 而 WW 仅仅 是 帮助 定义 玉 数 的 参数 而 已 。 
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Hadamard 乘积 





反 向 传播 算法 基于 常规 的 线性 代数 运算 诸如 向 量 加 法 ， 向 量 和 矩阵 乘法 等 。 但 是 有 一 个 运 
算 不 大 常见 。 特 别 地 ， 假 设 s 和 + 是 两 个 同样 维度 的 向 量 。 那 么 我 们 使 用 8 Ot 来 表示 按 元 素 
的 乘积 。 所 以 5 Ot MRE lS Ot — 5jt;。 给 个 例子 ， 


elekli || © 


这 种 类 型 的 按 元 素 乘 法 有 时 候 被 称 为 Hadamard 乘积 或 者 Schur 乘积 。 我 们 这 里 取 前 者 。 好 
的 矩阵 库 通 常会 提供 Hadamard 乘积 的 快速 实现 ， 在 实现 反 向 传播 的 时 候 用 起 来 很 方便 。 


反 回 传播 的 四 个 基本 方程 


反 向 传播 其 实 是 对 权重 和 偏差 变化 影响 代价 画 数 过 程 的 理解 。 最 终极 的 含义 其 实 就 是 计算 仿 
win | Ar iol | 

导数 IC jów; zy ËC Ob pay Ti eixtte, RAEAN, 9, BPR 

们 称 为 在 [th 层 第 了 ”个 神经 元 上 的 误差 (error) 。 


i w fl grr zl 
REES W HL Ez 0; 的 流程 ， 然 后 将 其 关联 到 计算 OĆ/ ÓW. 和 IC (OO; p, 


为 了 理解 误差 是 如 何 定 义 的 ， 假 设 在 人 第 经 网 络 上 有 一 个 恶 蘑 : 


i 


neuron, 


|, layer | 
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i 
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3【 
LI m, 
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U) | 
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个 小 精灵 在 1 层 的 第 7 了”" 个 神经 元 上 。 当 输入 进来 时 ， 精 灵 对 神经 元 的 操作 进行 搅局。 他 会 


这 
增加 很 小 的 变化 AŻ; 在 神经 元 的 带 权 输入 上 ， 使 得 神经 元 输出 由 5) 变 成 Ole + Ae) 
， 这 个 变化 会 向 网 络 后 面 的 层 进 行 传播 ， 最 终 导 致 整个 代价 融 数 产生 0 | BE, 


现在 ， 这 个 精灵 变 好 了 ， 试 着 帮助 你 来 优化 代价 丽 数 ， 他 们 试 着 找到 可 以 让 代价 更 小 的 DZ, 
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UL: UL: 


。 假 设 “i 有 一 个 很 大 的 值 (或 正 或 负 ) 。 那 么 这 个 精灵 可 以 降低 代价 通过 选择 与 *, 相反 
i 

符号 的 Aż, 。 相 反 ， 如 果 ?3 接近 六， 那么 精灵 并 不 能 通过 扰动 带 权 输入 “i 来 改变 太 多 代价 

函数 。 在 小 精灵 看 来 ， 这 时 候 神 经 元 已 经 很 接近 最 优 了 。 


LZ 


、 os ee Az > = EN ee m = 
这 里 需要 注意 的 是 ， 只 有 在 个 “i 很 小 的 时 候 才 能 够 满足 。 我 们 需要 假设 小 精灵 只 能 进行 
微小 的 调整 。 


所 以 这 里 有 一 种 启发 式 的 认识 ， “i 是 神经 元 的 误差 的 度量 。 
th m 中 
按照 上 面 的 描述 ， 我 们 定义 1 ZMIE JT 个 神经 元 上 的 误差 全 为 : 


y= 2C 
有 Az! 

F 
ARR DPA, RIEA d 表示 关联 于 i 层 的 误差 向 量 。 反 向 传播 会 提供 给 我 们 一 种 


! 、 R z 、 - ACIE „l | ‘ (© ‘a E 
SEREM 0! 的 方法 ， 然 后 将 这 些 误 差 和 最 终 我 们 需要 的 量 OC ÓW). 和 OC OD, ry zie 
来 。 


(29) 


你 可 能 会 想 知道 为 何 精灵 在 改变 带 权 输入 “ij。 肯 定 想象 精灵 改变 输出 激活 "i 更 加 自然 ， 然 后 
dC 


就 使 用 “所 作为 度量 误差 的 方法 了 。 实际 上 ， 如 果 你 这 样 做 的 话 ， 其 实 和 下 面 要 讨论 的 差 不 
同 。 但 是 看 起 来 ， 前 面 的 方法 会 让 反 同 传播 在 代数 运算 上 变 得 比较 复杂 。 所 以 我 们 坚持 使 用 


0, = CCl OZ) 作为 误差 的 度量 。 


在 分 类 问题 中 ， 误 差 有 时 候 会 用 作 分 类 的 错误 茸 。 如 果 神 经 网 络 正 确 分 类 了 96.0% 的 数 
字 ， 那 么 其 误 震 是 4.0%。 很 明显 ， 这 和 我 们 上 面 提 及 的 误 严 的 焉 别 非常 大 了 。 人 在 实际 应 
用 中 ， 区 分 这 两 种 含义 是 非常 容易 的 。 


解决 方案 : 反问 传播 基于 四 个 基本 方程 。 这 些 方程 给 我 们 一 种 计算 误差 和 代价 轴 数 梯度 的 方 
法 。 我 列 出 这 四 个 方程 。 但 是 需要 注意 : 你 不 需要 一 下 子 能 够 同时 理解 这 些 公 式 。 因 为 过 于 
庞大 的 期 望 可 能 会 导致 失望 。 实 际 上 ， 反 辣 传播 方程 内 容 很 多 ， 完 全 理解 这 些 需 要 花费 充分 
的 时 间 和 耐心 ， 需 要 一 步 一 步 地 深入 理解 。 而 好 的 消息 是 ， 这 样 的 付出 回报 巨大 。 所 以 本 节 
对 这 些 内 容 的 讨论 仅仅 是 一 个 帮助 你 正确 掌握 这 些 公 式 的 起 步 。 


下 面 简要 介绍 我 们 的 探讨 这 些 公式 的 计划 : 首先 给 出 这 些 公 式 的 简短 证 明 以 解释 他 们 的 正确 
性 ; 然后 以 伪 代 码 的 方式 给 出 这 些 公式 的 算法 形式 ， 并 展示 这 些 伪 代码 如 何 转 化 成 真实 的 可 
执行 的 python 代码 ; 在 本 章 的 最 后 ， 我 们 会 发 展 处 一 个 天 于 反 向 传播 公式 含义 的 直觉 图 景 ， 
以 及 人 们 如 何 能 够 从 老 开 始 发 现 这 个 规律 。 按 照 此 法 ， 我 们 会 不 断 地 提 太 这 四 个 基本 方程 ， 
随 着 你 对 这 些 方程 理解 的 加 深 ， 他 们 会 看 起 来 更 加 舒服 ， 其 至 是 美妙 和 自然 的 。 


输出 层 误差 的 方程 ， 闭 : 每 个 元 素 定 义 如 下 : 
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OC | 
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gag L pr 
这 是 一 个 非常 自然 的 表达 式 。 右 式 第 一 个 项 Ca 表示 代价 随 着 六 输出 激活 值 的 变化 而 
变化 的 速度 。 假 如 C 不 太 依 赖 一 个 特定 的 输出 神经 元 有 那么 97 就 会 很 小 ， 这 也 是 我 们 想 要 
的 效果 。 右 式 第 二 项 (他) 刻画 了 在 好 处 激活 函数 r 变化 的 速度 。 


= BP1 中 的 每 个 部 分 都 是 很 好 计算 的 。 特 别 地 ， marae 前 向 传播 计算 网 络 行为 时 已 经 

计算 过 好 ， 这 仅仅 需要 一 点 点 额外 工作 就 可 以 计算 T r), ug OCO 依赖 于 代价 函数 
WE 
RM, Ba Ć 7 2 lua), gry Cba; = (oj 一 芒 )， 这 其 实 很 容易 计算 。 


方程 (BP1) 对 6° 来 说 是 个 按 部 分 构成 的 表达 式 。 这 是 一 个 非常 好 的 表达 式 ， 但 不 是 我 们 期 望 
的 用 算 阵 表示 的 形式 。 但 是 ， 重 写 方 程 其 实 很 简单 ， 


e = V,COo'(2’). (BP1a) 


这 里 VO 被 定义 成 一 个 向 量 ， 其 元 素 炳 偏 导数 了 C1007。 你 可 以 将 其 看 成 C 关于 输出 激活 
值 的 改变 速度 。 FETE E E 所 以 现在 开始 ， 我 们 会 交替 
地 使 用 这 两 个 方程 。 举 个 例子 ， 在 二 次 代价 画 数 时 ， 我 位 有 VC = (a “—y), 所 以 (BP1) 

的 整个 和 矩阵 形式 就 变 成 


5 =(a'-y)Qo'(z”). (30) 
如 你 所 见 ， 这 个 方程 中 的 每 个 项 都 有 一 个 很 好 的 向 量 形式 ， 所 以 也 可 以 很 方便 地 使 用 像 
Numpy 这 样 的 答 阵 库 进行 计算 了 。 


使 用 下 一 层 的 误差 来 表示 当前 层 的 误差 0 特别 地 ， 
8! = (wt!) st!) O o' (z), (BP2) 


其 中 (w 8 (141) pew! 的 转 置 。 这 其 实 可 以 很 直觉 地 看 做 是 后 在 l" ZM 
输出 的 误差 的 反 向 传播 ， eile 然后 ， one Hadamard 乘积 
运算 Oo'(2), R&A | 层 的 激活 画 数 反 向 传递 回来 并 给 出 在 第 1 层 的 带 权 输入 的 误 
x= 6, 


通过 组 合 (BP1) 和 (BP2)， 我 们 可 以 计算 任何 层 的 误差 了 。 首 先 使 用 (BP1) 计 算 站 ， 然 后 应 用 方 
程 (BP2) 来 计算 0+!， 然 后 不 断 作 用 (BP2)， 一 步 一 步 地 反 向 传播 完整 个 网 络 。 


代价 函数 关于 网 络 中 任意 偏差 的 改 交 率 : 就 是 
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一 (BP3) 


l aerial 
RAs, RE 0 和 偏 导 数值 oC bi 完全 一 致 。 这 是 很 好 的 性 质 ， 因 为 (BP1) 和 (BP2) 已 经 
I 
告诉 我 们 如 何 计算 人 5。 所 以 就 可 以 将 (BP3) 简 记 为 
OC 
ob 


其 中 上 和 偏 短 户 都 是 针对 同一 个 昼 经 元 。 


6, (31) 


代价 函数 关于 任何 一 个 权重 的 改变 率 : 特别 地 ， 
— sg '!8 (BP4) 
| k : 7 


这 告 泊 我 们 如 何 计算 偏 导数 ICO W, Bh! gl l 这 些 量 我 们 都 已 经 知道 如 何 计算 了 。 方 
程 也 可 以 写成 下 面 少 下 标的 表示 : 


oC / | 
— = dinOout; (32) 
ów 


其 中 aj 是 输出 给 tw 产生 的 神经 元 的 输入 和 Com 是 来 自 w 的 神经 元 输出 的 误差 。 放 大 看 看 权 
重 W， 还 有 两 个 由 这 个 链接 相连 的 神经 元 ， 我 们 给 出 一 幅 图 如 下 : 


p KU 111 w À, ruil p k’ 
i i M i 
i i 

Mt 


方程 (32) 的 一 个 结论 就 是 当 激 活 值 很 小 ， 梯 度 OC/0w 也 会 变 得 很 小 。 这 样 ， 我 们 就 说 权重 
学 习 缓 慢 ， 表 示 在 梯度 下 降 的 时 候 ， 这 个 权重 不 会 改变 太 多 。 换 言 之 ，(BP4) 的 后 果 束 是 来 自 
很 低 的 激活 值 神经 元 的 权重 学 习 会 非常 缓慢 。 


这 四 个 公式 同样 还 有 很 多 观察 。 让 我 们 看 看 (BP1) 中 的 项 了 ( 纹 )。 回 忆 一 下 上 一 章 的 sigmoid 
KARR, SNA eR RA 1 的 时 候 图 像 非常 平 。 这 就 使 得 在 这 些 位 置 的 导数 接近 于 0. 
所 以 如 果 输 出 神经 元 处 于 或 者 低 激 活 值 或 者 高 激活 值 时 ， 最 终 层 的 权重 学 习 缓 慢 。 这 样 的 情 
形 ， 我 们 常常 称 输出 神经 元 已 经 饱和 了 ， 并 且 ， 权 重 学 习 也 会 终止 〈 或 者 学 习 非 常 缓 慢 ) 。 
类 似 的 结果 对 于 输出 神经 元 的 偏差 也 是 成 立 的 。 
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I 
针对 前 面 的 层 ， 我 们 也 有 类 似 的 观点 。 特 别 地 ， 注 意 在 (BP2) 中 的 项 o'(z). 这 表示 0 很 可 
能 变 小 如 果 神 经 元 已 经 接近 和 饱和。 这 就 导致 任何 输入 进 一 个 饱和 的 神经 元 的 权重 学 习 缓 慢 。 


如 果 (w EH 拥有 足够 大 的 量 能 够 补偿 T (24) 的 话 ， 这 里 的 推导 就 不 能 成 立 了 。 
但 是 我 们 上 面 是 常见 的 情形 。 


总 结 一 下 ， 我 们 已 经 学 习 到 权重 学 习 缓 慢 如 果 输 入 神经 元 激活 值 很 低 ， 或 者 输出 俐 经 元 已 经 
饱和 了 (过 高 或 者 过 低 的 激活 值 ) o 
其 


这 些 观 测 其 实 也 是 不 非常 分 人 惊奇 的 。 不 过 ， 他 们 帮助 我 们 完善 了 关于 和 神经 网 络 学 习 的 背后 
9 思维 模型 。 而 且 ， 我 们 可 以 将 这 种 推断 方式 进行 推广 。 四 个 基本 方程 也 其 实 对 任何 的 激活 
贺 数 都 是 成 立 的 《证明 中 也 可 以 看 到 ， 其 实 推断 本 映 不 依赖 于 任何 具体 的 代价 西数 ) 所 以 ， 
我 们 可 以 使 用 这 些 方程 来 设计 有 特定 属性 的 激活 函数 。 我 们 这 里 给 个 例子 ， 假 设 我 们 准备 选 
择 一 个 (non-sigmoid) WRB ERR o 使 得 o 总 是 正 效 。 这 会 防止 在 原始 的 sigmoid 神经 元 
钨 和 时 学 习 速 度 的 下 降 的 情况 出 现 。 在 本 书 的 后 面 ， 我 们 会 见 到 这 种 类 型 的 对 激活 玉 数 的 改 
变 。 时 时 回顾 这 四 个 方程 可 以 帮助 解释 为 何 需 要 有 这 些 尝试 ， 以 及 尝试 带 来 的 影响 。 


Summary: the equations of backpropagation 





je] A 


另 一 种 反 向 传播 方程 的 表示 方式 : 我 已 经 给 出 了 使 用 了 Hadamard 乘积 的 反 向 传播 的 公式 。 
如 果 你 对 这 种 特殊 的 乘积 不 熟悉 ， 可 能 会 有 一 些 困惑 。 下 面 还 有 一 种 表示 方式 ， 那 就 是 基于 
传统 的 矩阵 乘法 ， 荣 些 读者 可 能 会 党 得 很 有 和 启发 。(1) 证 明 (BP1) 可 以 写成 


E = (z )V.C, (33) 


"DL a i "a i 
其 中 D(z") ype, Baa KET (好 )， 其 他 的 元 素 均 是 0。 注 意 ， 这 个 矩阵 
通过 一 般 的 矩阵 乘法 作用 在 aC 上 。(2) 证 明 (BP2) 可 以 写成 


5! = z (z)ów*) FF | (34) 
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(3) 结合 (1) 和 (2) 证 明 
E = E'A wY E'N TVaC (35) 


对 那些 习惯 于 这 种 形式 的 和 矩阵 乘法 的 读者 ，(BP1) (BP2) 应 该 更 加 容易 理解 。 而 我 们 坚持 使 用 
Hadamard 乘积 的 原因 在 于 其 更 快 的 数值 实现 。 


四 个 基本 方程 的 证 明 (可 选 ) 


我 们 现在 证 明 这 四 个 方程 。 所 有 这 些 都 是 多 元 币 积 分 的 链 式 法 则 的 推论 。 如 果 你 熟悉 链 式 法 
则 ， 那 么 我 鼓励 你 在 读 之 前 目 己 证 明 一 鱼 。 


练习 


。 证 明 方 程 (BP3) 和 (BP4) 


这 样 我 们 就 完成 了 反 向 传播 四 个 基本 公式 的 证 明 。 证 明 本 身 看 起 来 复杂 。 但 是 实际 上 就 是 细 
心地 应 用 链 式 法 则 。 我 们 可 以 将 反 向 传播 看 成 是 一 种 系统 性 地 应 用 多 元 微 积 分 中 的 链 式 法 则 
来 计算 代价 函数 的 梯度 的 方式 。 这 些 束 是 反 向 传播 理论 上 的 内 容 剩 下 的 是 实现 细节 。 


有 反 同 传播 拭 法 





反 回 传播 方程 给 出 了 一 种 计算 代价 函数 栅 度 的 方法 。 让 我 们 显 陈 地 用 算法 拍 述 出 来 : 


1 MAG: 为 输入 层 设 置 对 应 的 激活 值 0' o 

2， 前 向 传播 : 对 每 个 【二 2,3,..., 上 计算 相应 的 半 二 wial ' +b pa’ = oal) 

3 wees GL : 计算 向 量 二 VaC Oo (z) 

4， 反 向 误差 传播 : tee I=L-1L-2,...,2, pe F = (lwi) Oo (z) 
, =a aj = 6 

5， 输 出 : (TN "w 和 © | 


看 看 这 个 算法 ， 你 可 以 看 到 为 何 它 钻 称 作 反 向 传播 。 我 们 从 最 后 一 层 开始 向 后 计算 误 闫 同 量 
0' 。 这 看 起 来 有 点 奇怪 ， 为 何 要 从 后 面 开 始 。 但 是 如 果 你 认真 思考 反 向 传播 的 证 明 ， 这 种 反 向 
移动 其 实 是 代价 函数 是 网 络 输出 的 函数 的 后 果 。 为 了 理解 代价 随 前 面 层 的 权重 和 偏 甜 变化 的 
规律 ， 我 们 需要 重复 作用 链 式 法 则 ， 反 向 地 获得 需要 的 表达 式 ,。 


练习 
。 使 用 单个 修正 的 第 经 元 的 反 回 传播 假设 我 们 改变 一 个 前 向 传播 网 络 中 的 单个 利 经 元 ， 使 
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得 那个 神经 元 的 输出 是 SQL; WT; +b) rh 了 是 和 sigmoid BKTHAZ-BMA. 
我 们 如 何 调整 反 向 传播 算法 ? 

。 线性 神经 元 上 的 反 向 传播 假设 我 们 将 非 线 性 神经 元 替换 为 ?> 二 2。 重 写 反 向 传播 算 
法 。 


正如 我 们 上 面 所 讲 的 ， 反 向 传播 算法 对 一 个 训练 样本 计算 代价 函数 的 梯度 ，C = Cs。 在 实践 
中 ， 通 党 料 反 向 传播 算法 和 诸如 随机 梯度 下 降 这 样 的 学 习 算 法 进行 组 合 使 用 ， 我 们 会 对 许多 

训练 样本 计算 对 应 的 梯度 。 特 别 地 ， 给 定 一 个 大 小 为 m 的 minibatch， 下 面 的 算法 应 用 一 步 

梯度 下 降 学 习 在 这 个 minibatch 上 : 


1. 输入 训练 样本 的 集合 

2， 对 每 个 训练 样本 了 : 设置 对 应 的 输入 激活 a” ， 并 执行 下 面 的 步 又 : 
。 前 向 传播 : r BN l=2,3,...,L pe l wa" " +b gja” = ofz”) 
o 输出 误差 gel : pee bo" = VC, O'h") 


o 反 向 传播 误差 : 对 每 个 :三 上 一 1, 上 一 2,...,2 计算 
ge = ((w L] fo L] ) © a sk 
3， 梯 度 下 降 : 对 每 个 1 二 工 一 1 一 2,...,2 g W w — (a)! a 


bo > i 一 — S06 mi EH 


当然 ， 在 实践 中 实现 随机 梯度 下 降 ， 我 们 还 需要 一 个 产生 训练 样本 minibatch HH, ZAR 
是 训练 次 数 的 循环 。 这 里 我 们 先 省 略 了 。 


代码 


理解 了 抽象 的 反 疝 传播 的 理论 知识 ， 我 们 现在 束 可 以 学 习 上 一 章 中 使 用 的 实现 反 向 传播 的 代 
码 了 。 回 想 上 一 章 的 代码 ， 需 要 研究 的 是 在 Network 类 中 的 update mini batch 和 backprop 
方法 。 这 些 方法 的 代码 其 实 是 我 们 上 面 的 算法 摘 述 的 直接 翻版 。 特 别 地 ， update_mini_batch 
方法 通过 计算 当前 mini _batch 中 的 训练 样本 对 Network 的 权重 和 偏差 进行 了 更 新 : 


class Network(object): 


def update mini batch(self, mini batch, eta): 
"""Update the network's weights and biases by applying 
gradient descent using backpropagation to a single mini batch. 
The "mini_batch" is a list of tuples "(x, y)", and "eta" 
is the learning rate.""" 
nabla_b = [np.zeros(b.shape) for b in self.biases] 
nabla_w = [np.zeros(w.shape) for w in self.weights | 
for x, y in mini_batch: 
delta_nabla_b, delta_nabla_w = self.backprop(x, y) 
nabla_b = [nb+dnb for nb, dnb in zip(nabla_b, delta_nabla_b) ] 
nabla_w = [nw+dnw for nw, dnw in zip(nabla_w, delta_nabla_w) | 
self.weights = [w-(eta/len(mini_batch) )*nw 
for w, nw in zip(self.weights, nabla_w) | 
self.biases = [b-(eta/len(mini_batch) )*nb 
for b, nb in zip(self.biases, nabla_b)] 


ww ai bbt. com TOUOAOFO0 0 





null 


null 


主要 工作 其 实 是 在 delta nabla b, delta nabla w = self.backprop(x, y) 这 里 完成 的 ， 调 用 了 


backprop 方法 计算 出 了 偏 导数 ，BCz /6 和 DCz/Buwik。 反 向 传播 方法 跟 上 一 节 的 算法 基 
本 一 致 。 这 里 只 有 个 小 小 的 差异 一 我 们 使 用 一 个 略微 不 同 的 方式 来 索引 神经 网 络 的 层 。 这 
个 改变 其 实 是 为 了 Python 的 特性 负 值 索引 的 使 用 能 够 让 我 们 从 列表 的 最 后 往 前 逼 万 ， 如 
1[-3] 其 实 是 列表 中 的 倒数 第 三 个 元 素 。 下 面 backprop 的 代码 ， 使 用 了 一 些 用 来 计算 r、 导 
Mo 及 代价 函数 的 导数 帮助 画 数 。 所 以 理解 了 这 些 ， 我 们 就 完全 可 以 掌握 所 有 的 代码 了 。 如 
果菜 些 东 西 让 你 困惑 ， 你 可 能 需要 参考 代码 的 原始 描述 











class Network(object): 


def backprop(self, x, y): 
"""Return a tuple "(nabla_b, nabla_w)" representing the 
gradient for the cost function C_x. "nabla_b" and 
"nabla_w" are layer-by-layer lists of numpy arrays, similar 
to "self.biases" and "self.weights".""" 
nabla_b = [np.zeros(b.shape) for b in self.biases |] 
nabla_w = [np.zeros(w.shape) for w in self.weights] 
# feedforward 
activation = x 
activations = [x] # list to store all the activations, layer by layer 
zs = [] # list to store all the z vectors, layer by layer 
for b, w in zip(self.biases, self.weights): 
Z = np.dot(w, activation)+b 
zs.append(z) 
activation = sigmoid(z) 
activations.append(activation) 
# backward pass 
delta = self.cost_derivative(activations[-i], y) * \ 
sigmoid_prime(zs[-1]) 
nabla_b[-1] = delta 
nabla_w[-1] = np.dot(delta, activations[ -2].transpose() ) 
Note that the variable 1 in the loop below is used a little 
differently to the notation in Chapter 2 of the book. Here, 
l = 1 means the last layer of neurons, 1 = 2 is the 
second-last layer, and so on. It's a renumbering of the 
scheme in the book, used here to take advantage of the fact 
that Python can use negative indices in lists. 
for 1 in xrange(2, self.num_layers): 
Z = zs[-1] 
sp = sigmoid_prime(z) 
delta = np.dot(self.weights[-1+1].transpose(), delta) * sp 
nabla_b[-1] = delta 
nabla_w[-1] = np.dot(delta, activations[-1-1|.transpose( )) 
return (nabla_b, nabla_w) 


R R dd d + 


def cost_derivative(self, output _activations, y): 
"""Return the vector of partial derivatives \partial C_x / 
\parttal a for the output activations. "=" 
return (output_activations-y) 


def sigmoid(z): 


"""The sigmoid function.™™" 
return 1.0/(1.0+np.exp(-z)) 
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def sigmoid_prime(z): 
"Derivative of the sigmoid function. 
return sigmoid(z)*(1-sigmoid(z)) 
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e 在 minibatch 上 的 反 向 传播 的 全 和 矩阵 方法 我 们 对 于 随机 梯度 下 降 的 实现 是 对 一 个 
minibatch 中 的 训练 样本 进行 通 历 。 所 以 也 可 以 更 改 反 向 传播 算法 使 得 它 同 时 对 一 个 
he 中 的 所 有 样本 进行 梯度 计算 。 这 个 想法 其 实 就 是 我 们 可 以 用 一 个 矩阵 

， 其 中 每 列 就 是 在 minibatch 中 的 向 量 ， 而 不 是 单个 的 输入 向 量 ， 

站。 我 们 通过 乘 权 重 答 阵 ， 加 上 对 应 的 偏 舌 进 行 前 向 传播 ， 在 所 有 地 方 应 用 sigmoid & 

数 。 然 后 按照 类 似 的 过 程 进行 反 同 传播 。 请 显 陈 写 出 这 种 方法 下 的 伪 代 码 。 更 改 

network.py 来 实现 这 个 方案 。 这 样 做 的 好 处 其 实 利用 到 了 现代 的 线性 代数 库 。 所 以 ， 这 

会 比 在 minibatch 上 进行 通 历 要 运行 得 更 快 (在 我 的 笔记 本 电脑 上 ， 在 MNIST 分 类 问题 

上 ， 我 相 较 于 上 一 章 的 实现 获得 了 2 倍 的 速度 提升 ) 。 在 实际 应 用 中 ， 所 有 靠 谱 的 反 向 

传播 的 库 都 是 用 了 类 似 的 基于 答 阵 或 者 变 体 的 方式 来 实现 的 。 


在 哪 种 层面 上 ， 反 同 传 播 是 快速 的 算法 ? 





X = [ary, 225... 4 am 


为 了 回答 这 个 问题 ， 首 先 考虑 另 一 个 计算 梯度 的 方法 。 就 当 我 们 回 到 上 世界 50、60 年 代 的 神 
经 网 络 研 究 。 假 设 你 是 世界 上 首 个 考虑 使 用 梯度 下 降 方 法 学 习 的 那 位 1 为 了 让 自己 的 想法 可 
行 ， 束 必须 找 出 计算 代价 函数 梯度 的 方法 。 想 想 上 自己 学 到 的 微 积 分 ， 决 定 试 试看 链 式 法 则 来 
计算 梯度 。 但 玩 了 一 会 后 ， 束 发 现代 数 式 看 起 来 非常 复杂 ， 然 后 束 退 缩 了 。 所 以 束 试 着 找 另 
外 的 方式 。 你 决定 仅仅 把 代价 看 做 权重 C NWR, MARE RB Ww, W.. 进行 编写， 期 

望 计 算 天 于 茶 个 权 值 “i XTC 的 导数 。 而 一 种 近似 的 方法 就 是 下 面 这 种 : 

OC C(w + Ee) — C(w) | 
i RISE, (46) 
Ow; € | 


Hrhe>0E—RNNIEŻ, mE 是 在 第 j 个 方向 上 的 单位 向 量 。 换 句 话 说， 我 们 可 以 通过 
计算 Wi 的 两 个 接近 相同 的 点 的 值 来 估计 C9Wi， 然 后 应 用 公式 (46) 。 同 样 方法 也 可 以 
用 来 计算 OC / Ob. 


这 个 观点 看 起 来 非常 有 希望 。 概 念 上 易 懂 ， 容 易 实 现 ， 使 用 几 行 代码 束 可 以 搞定 。 看 起 来 ， 
这 样 的 方法 要 上 比 使 用 链 式 法 则 i 还 要 有 效 。 


后 ， 吐 憾 的 是 ， 当 你 实现 了 之 后 ， 运 行 起 来 这 样 的 方法 非常 缓慢 。 为 了 理解 原因 ， 假 设 我 
ae 1,000, 000 权重 。 对 每 个 不 同 的 权重 "i 我 们 需要 计算 Clw + €*e;) 来 计算 
DC /Oni。 这 意味 着 为 了 计算 梯度 ， 我 们 需要 计算 代价 画 数 1, 000, 000 次 ， 需 要 
1,000,000 前 向 传播 (对 每 个 样本 ) 。 我 们 同样 需要 计算 C(w]， 总 共 是 1 000,001 次 。 
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反 向 传播 聪明 的 地 方 就 是 它 确保 我 们 可 以 同时 计算 所 有 的 偏 导 数 ÓC/0W; 使 用 一 次 前 向 传 
播 ， 加 上 一 次 后 向 传播 。 粗 略 地 说 ， 后 同 传播 的 计算 代价 和 前 同 的 一 样 。* 


这 个 说 法 是 合理 的 ， 但 需要 额外 的 说 明 来 淤 清 这 一 事实 。 在 朋 同 传播 过 程 中 主要 的 计算 
代价 消耗 在 权重 窍 阵 的 乘法 上 ， 而 反 辐 传播 则 是 计算 权重 窟 阵 的 转 置 塌 阵 。 这 上 绎 操作 显 
然 有 着 类 似 的 计算 代价 。 


所 以 最 终 的 计算 代价 大 概 是 两 倍 的 前 同 传 播 计算 大 家 。 上 比 起 直接 计算 导数 ， 显 然 有 反 同 传播 有 
看 更 大 的 优势 。 所 以 即使 反 同 传播 看 起 来 要 比 (46) 更 加 复杂 ， 但 实际 上 要 更 快 。 


这 个 加 速 在 1986 年 站 次 被 众人 接受 ， 并 直接 导致 俐 经 网 络 可 以 处 理 的 问题 的 扩展 。 这 也 导致 
了 大 量 的 研究 者 涌 向 了 神经 网 络 方向 。 当 然 ， 反 向 传播 并 不 是 万 能 钥匙 。 在 1980 FRA 
期 ， 人 们 尝试 挑战 极限 ， 尤 其 是 尝试 使 用 反 向 传播 来 训练 深度 神经 网 络 。 本 书后 面 ， 我 们 将 
看 到 现代 计算 机 和 一 些 聪 明 的 新 想法 已 经 让 反 向 传播 成 功 地 训练 这 样 的 深度 俐 经 网 络 。 


反 向 传播 : 大 视野 


正如 我 所 讲解 的 ， 反 向 传播 提出 了 两 个 神秘 的 问题 。 首 先 ， 这 个 算法 真正 在 干什么 ?我 们 已 
经 感受 到 从 输出 处 的 错误 被 反 向 传 回 的 图 景 。 但 是 我 们 能 够 更 深入 一 些 ， 构 造 出 一 种 更 加 深 
刻 的 直觉 来 解释 所 有 这 些 和 矩阵 和 向 量 乘法 么 ? 第 二 神秘 点 就 是 ， 某 人 为 什么 能 发 现 这 个 反 向 
传播 ? 跟着 一 个 算法 跑 一 通 甚 至 能 够 理解 证 明 算 法 可 以 运行 这 是 一 回 事 。 这 并 不 真 的 意味 着 
你 理解 了 这 个 问题 到 一 定 程度 ， 能 够 发 现 这 个 算法 。 是 否 有 一 个 推理 的 思路 可 以 指引 我 们 发 
m RMB 算法 ?本 节 ， 我 们 来 探讨 一 下 这 两 个 迹 题 。 为 了 提升 我 们 天 于 算法 究竟 做 了 什么 
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这 个 改变 会 导致 在 输出 激活 值 上 的 相应 改变 : 
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接 看 ， 这 些 改变 都 将 影响 到 一 个 个 下 一 层 ， 到 达 输 出 层 ， 最 终 影响 代价 函数 : 
~ EON ZON 
C | 
p ON 
| s AU i 
a z w, Fai 一 一 
| | 
KW |, “~ 


所 以 代价 画 数 AC 改变 和 Sik 就 按照 下 面 的 公式 关联 起 来 了 : 


AC z — Aw, (47) 


HC | 
给 出 了 一 种 可 能 的 计算 "e 的 方法 其 实 是 细致 地 追踪 一 个 Wie 的 微小 变化 如 何 导 致 C 中 
Ron 有 we 这 点 ， 能 够 精确 地 使 用 易于 计算 的 量 来 表达 每 种 关系 ， 那 么 我 
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们 就 能 够 计算 OW 了 





我 们 尝试 一 下 这 个 方法 。 人 ix 导致 了 在 ll! g i! 神经 元 的 激活 值 的 变化 人 qi。 这 个 变化 
由 下 面 的 公式 给 出 : 
da, 
Aa; (48) 
A, 
Aa) 的 变化 将 会 导致 下 一 层 的 所 有 激活 值 的 变化 。 我 们 聚焦 到 其 中 一 个 激活 值 上 看 看 影响 的 


情况 ， 不 妨 设 ay 





f N 
tk 
sa + C 
p kw 
C | 
LU KU Nea J TE 
实际 上 ， 这 会 导致 下 面 的 变化 : 
> [+1 
A d+] A, daq Aq! 4 
u -a Bax; (49) 
“j 
将 其 代入 方程 (48)， 我 们 得 到 
[+] da! 
Agi! nj 9% J Nw! 50 
人 gt a ” 
a; OWE 


mę 这 个 变化 又 会 去 下 一 层 的 激活 值 。 实 际 上 ， 我 们 可 以 想象 出 一 条 从 Vik 到 C 的 路 径 ， 
后 每 个 激活 值 的 变化 会 导致 下 一 层 的 激活 值 的 变化 ， 最 终 是 输出 层 的 代价 的 变化 。 假 设 激 
t+] p 也 
Aeri i recoin sdm ， 那 么 结果 的 表达 式 就 是 


ƏC da, dak ac da, 
dat da; dal"! dal”? = da; ów, 
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我 们 已 经 对 每 个 经 过 的 神经 元 设置 了 一 个 Day aa 这 种 形式 的 项 ， 还 有 输出 层 的 OC/ dag, 
这 表示 除了 C 的 改变 由 于 网 络 中 这 条 路 径 上 激活 值 的 变化 。 当 然 ， 整 个 网 络 中 存在 很 多 "ik 
可 以 传播 而 影响 代价 酌 数 的 路 径 ， 这 里 我 们 融 看 其 中 一 条 。 为 了 计算 HEB, Rie 
需要 对 所 有 可 能 的 路 径 进 行 求 和 ， 即 ， 





i Aaj +1 ga! 
OC dam odan ða; OG; i r 
Kom dam dan 0a; da, Ów, 
这 里 我 们 对 路 径 中 所 有 可 能 的 中 间 人 神经 元 选择 进行 求 和 。 对 比 (47) 我 们 有 
= | 上 
OC 7 5 OC dain, dak i dag ' da; 
Io a Kol og O° gaj et 
现在 公式 (53) 看 起 来 相当 复杂 。 但 是 ， 这 里 其 实 有 一 个 相当 好 的 站 党 上 的 解释 。 我 们 用 这 个 公 
式 计算 C 关于 网 络 中 一 个 权重 的 变化 率 。 而 这 个 公式 告诉 我 们 的 是 : 两 个 神经 元 之 间 的 连接 
其 实 是 天 联 与 一 个 变化 率 因 子 ， 这 仅仅 是 一 个 神经 元 的 激活 值 相 对 于 其 他 入 经 元 的 激活 值 的 
偏 导 数 。 从 第 一 个 权重 到 第 一 个 神经 元 的 变化 率 因 子 是 9010Wjk 。 路 径 的 变化 率 因 子 其 实 
就 是 这 条 路 径 上 的 众多 因子 的 乘积 。 而 整个 的 变化 率 OCI 就 是 对 于 所 有 可 能 的 从 初始 
权重 到 最 终 输 出 的 代价 函数 的 路 径 的 变化 率 因 子 的 和 。 针 对 某 一 个 路 径 ， 这 个 过 程 解释 如 
下 ， 


(53) 
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我 们 到 现在 所 给 出 的 东西 其 实 是 一 种 启发 式 的 观点 ， 一 种 思考 权重 变化 对 网 络 行为 影响 的 方 
式 。 让 我 们 给 出 关于 这 个 观点 应 用 的 一 些 流程 建议 。 首 先 ， 你 可 以 推导 出 公式 (53) 中 所 有 单独 
的 的 偏 导 数 显 式 表达 式 。 只 是 一 些微 积分 的 运算 。 完 成 这 些 后 ， 你 可 以 弄 明 白 如 何 用 和 矩 阵 运 
算 写 出 对 所 有 可 能 的 情况 的 求 和 。 这 项 工作 会 比较 乏味 ， 需 要 一 些 耐 心 ， 但 不 用 太 多 的 洞 
察 。 完 成 这 些 后 ， 束 可 以 尽 可 能 地 简化 了 ， 最 后 你 发 现 ， 自 己 其 实 束 是 在 做 反 向 传播 1 所 以 
你 可 以 料 反 向 传播 想象 成 一 种 计算 所 有 可 能 的 路 径 变 化 率 的 求 和 的 方式 。 或 者 ， 换 句 话 说 ， 
反 向 传播 就 是 一 种 巧妙 地 追踪 权重 (和 偏差 ) BSN, PRM ERAN 
技术 。 
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现在 我 不 会 继续 深入 下 去 。 因 为 这 项 工作 比较 无 聊 。 如 果 你 想 挑 战 一 下 ， 可 以 尝试 与 喜爱 。 
即使 你 不 去 尝试 ， 我 也 希望 这 种 思维 方式 可 以 让 你 能 够 更 好 地 理解 反 同 传播 。 


那 其 他 的 一 些 俐 秘 的 特性 呢 一 一 反 同 传播 如 何在 一 开始 侯 发 现 的 ?实际 上 ， 如 果 你 跟随 我 刚 
刚 给 出 的 观点 ， 你 其 实 是 可 以 发 现 反 回 传播 的 一 种 证 明 的 。 不 年 的 是 ， 证 明 会 比 本 章 前 面 介 
绍 的 证 明 更 长 和 更 加 的 复杂 。 那 么 ， 前 面 那 个 简短 〈 却 更 加 神秘 ) 的 证 明 如 何 仇 发 现 的 ? 当 
你 于 出 来 所 有 关于 长 证 明 的 细节 后 ， 你 会 发 现 其 实 里 面包 含 了 一 些 明 显 的 可 以 进行 改进 的 地 
方 。 然 后 你 进行 一 些 简化 ， 得 到 稍微 简 秽 的 证 明 ， 写 下 来 。 然 后 又 能 发 现 一 些 更 加 明显 的 简 
化 。 进 过 几 次 迭代 证 明 改 进 后 ， 你 会 发 现 最 终 的 简单 却 看 起 来 奇特 的 证 明 ， 因 为 你 移 除 了 很 
多 构造 的 细节 了 | 老实 告诉 你 ， 其 实 最 早 的 证 明 的 出 现 也 不 是 太 过 神秘 的 事情 。 因 为 那 只 是 
ARS xt fy (Ei BABY oR EL EW RR 
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当 一 个 高 尔 夫 球员 刚 开 始 学 习 打 高 尔 夫 时 ， 他 们 通常 会 在 挥 杆 的 练习 上 花费 大 多 数 时 间 。 慢 
慢 地 他 们 才 会 在 基本 的 挥 杆 上 通过 变化 发 展 其 他 的 击 球 方 式 ， 学 习 低 飞 球 、 左 曲 球 和 右 曲 
球 。 类 似 的 ， 我 们 现在 仍然 聚焦 在 反 向 传播 算法 的 理解 上 。 这 就 是 我 们 的 “基本 挥 杆 ”一 一 神经 
网 络 中 大 部 分 工作 学 习 和 研究 的 基础 。 本 章 ， 我 会 解释 若干 技术 能 够 用 来 提升 我 们 关于 反 向 
传播 的 初级 的 实现 ， 最 终 改进 网 络 学 习 的 方式 。 


本 章 涉及 的 技术 包括 : 更 好 的 代价 函数 的 选择 一 一 交叉 六 代价 函数 ; 四 中 规范 化 方法 (L1 和 
L2 45616, dropout 和 训练 数据 的 人 工 扩 展 ) ， 这 会 让 我 们 的 网 络 在 训练 集 之 外 的 数据 上 更 
好 地 泛 化 ; 更 好 的 权重 初始 化 方法 ; 还 有 帮助 选择 好 的 超人 参数 的 启发 式 想 法 。 同 样 我 也 会 再 
给 出 一 些 简要 的 其 他 技术 介绍 。 这 些 讨 论 之 间 的 独立 性 比较 大 ， 所 有 你 们 可 以 随 自己 的 意愿 
Has. 另外 我 还 会 在 代码 中 实现 这 些 技术 ， 使 用 他 们 来 提高 在 第 一 章 中 的 分 类 问题 上 的 性 


4b 
Abo 


习 深 度 学 习 的 观点 是 想 要 在 一 些 已 有 的 拷 术 上 入 门 的 最 佳 策略 其 实 是 深入 人 研究 一 小 部 分 最 重 
要 那些 的 技术 点 。 萤 握 了 这 些 关 键 技术 不 仅仅 对 这 些 扩 术 本 身 的 理解 很 有 用 ， 而 且 会 深化 你 
对 使 用 俐 经 网 络 时 会 遇 到 哪些 问题 的 理解 。 这 会 让 你 们 做 好 在 需要 时 快速 掌握 其 他 技术 的 充 
分 准备 。 


BE X Xi (U40T EL 
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秀 。 我 很 紧张 ， 开 始 时 将 八 度 音阶 的 曲 段 演奏 得 很 低 。 我 很 困惑 ， 因 为 不 能 继续 演奏 下 去 
了 ， 让 到 有 个 人 指出 了 其 中 的 错误 。 当 时 ， 我 非常 槛 炊 。 不 过 ， 尽 管 不 开心 ， 我 们 却 能 够 因 
为 明显 的 犯错 快速 地 学 习 到 正确 的 东西 。 你 应 该 相信 下 次 我 再 演奏 肯定 会 是 正确 的 1 TER, 
在 我 们 的 错误 不 是 很 好 的 定义 的 时 候 ， 学 习 的 过 程 会 变 得 更 加 缓慢 。 


理想 地 ， 我 们 希望 和 期 待 伸 经 网 络 可 以 从 错误 中 快速 地 学 习 。 在 实践 中 ， 这 种 情况 经 常 出 现 
和 ?为 了 回答 这 个 问题 ， 让 我 们 看 看 一 个 小 例子 。 这 个 例子 包含 一 个 只 有 一 个 输入 的 神经 
J 


blas b 


weight 


我 们 会 训练 这 个 伸 经 元 来 做 一 件 非常 简单 的 事 : 让 输入 1 BEA. 4A, RRKT, F 
工 找到 合适 的 权重 和 偏差 就 可 以 了 ， 不 需要 什么 学 习 算 法 。 然 而 ， 看 起 来 使 用 梯度 下 降 的 方 
式 来 学 习 权 重 和 偏差 是 很 有 启发 的 。 所 以 ， 我 们 来 看 看 神经 元 如 何 学 习 。 


为 了 让 事情 确定 化 ， 我 会 首先 将 权重 和 偏差 初始 化 为 0.6 和 0.9。 这 些 融 是 一 般 的 开始 学 习 的 
选择 ， 并 没有 任何 刻意 的 想法 。 一 开始 的 神经 元 的 输出 是 0.82， 所 以 这 离 我 们 的 目标 输出 
0.0 还 差 得 很 远 。 上 点击 右 下 角 的 “运行 "按钮 来 看 看 昼 经 元 如 何 学 习 到 让 输出 接近 0.0 的 。 注 意 
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到 ， 这 并 不 是 一 个 已 经 录 好 的 动 田 ， 你 的 浏览 器 实际 上 是 正在 进行 梯度 的 计算 ， 然 后 使 用 梯 
度 更 新 来 对 权重 和 偏差 进行 更 新 ， 并 且 展 示 结 果 。 设 置 学 习 率 U1 进行 学 习 一 方面 足够 
慢 的 让 我 们 跟随 学 习 的 过 程 ， 另 一 方面 也 保证 了 学 习 的 时 间 不 会 太 久 ， 几 秒 钟 应 该 就 足够 

了 。 代 价 函 数 是 我 们 前 面 用 到 的 二 次 函数 ，(C’。 这 里 我 也 会 给 出 准确 的 形式 ， 所 以 不 需要 翻 到 
前 面 查看 定义 了 。 注 意 ， 你 可 以 通过 点 击 “Run” 按钮 执行 训练 右 干 次 。 
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我 们 这 里 是 静态 的 例子 ， 在 原 书 中 ， 使 用 的 动态 示例 ， 所 以 为 了 更 好 的 效果 ， 请 参考 原 
书 的 此 处 动态 示例 。 


正如 你 所 见 ， 神 经 元 快速 地 学 到 了 使 得 代价 阔 数 下 降 的 权重 和 偏差 ， 给 出 了 最 终 的 输出 为 
0.09。 这 虽然 不 是 我 们 的 目标 输出 0.0， 但 是 已 经 挺 好 了 。 假 设 我 们 现在 将 初始 权重 和 仿 差 都 
设置 为 2.0。 此 时 初始 输出 为 0.98， 这 是 和 目标 值 的 差距 相当 大 的 。 现 在 看 看 神经 元 学 习 的 
过 程 。 点 击 “Run” 按钮 : 
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虽然 这 个 例子 使 用 的 了 同样 的 学 习 率 (1=U.lo) ， 我 们 可 以 看 到 刚 开 始 的 学 习 速 度 是 比较 
缓慢 的 。 对 前 150 左右 的 学 习 次 数 ， 权 重 和 偏差 并 没有 发 生 太 大 的 变化 。 随 后 学 习 速 度 加 
快 ， 与 上 一 个 例子 中 类 似 了 ， 神 经 网 络 的 输出 也 迅速 接近 (0.0。 


强烈 建议 参考 原 书 的 此 处 动态 示例 感受 学 习 过 程 的 差异 。 


这 种 行为 看 起 来 和 人 类 学 习 行 为 差异 很 大 。 正 如 我 在 此 节 开 头 所 说 ， 我 们 通常 是 在 犯错 比较 
明显 的 时 候 学 习 的 速度 最 快 。 但 是 我 们 已 经 看 到 了 人 工 神 经 元 在 其 犯错 较 大 的 情况 下 其 实学 
习 很 有 难度 。 而 且 ， 这 种 现象 不 仅仅 是 在 这 个 小 例子 中 出 现 ， 也 会 再 更 加 一 般 的 神经 网 络 中 
出 现 。 为 何 学 习 如 此 缓慢 ? 我们 能 够 找到 缓解 这 种 情况 的 方法 么 ? 


为 了 理解 这 个 问题 的 源头 ， 想 想 神 经 元 是 按照 偏 导数 (0C/0w 和 OC/Ob) 和 学 习 率 (1) 
AVF SKN SE BAN. PMA, RNS VBI NH, KREMER ES AIR. 
理解 他 们 为 何 这 人 么 小 融 是 我 们 面临 的 挑战 。 为 了 理解 这 些 ， 让 我 们 计算 偏 导 效 看 看 。 我 们 一 
BEANE RAR, EMF 


(y — a) 
2 


H rh a 是 神经 元 的 和 输出， 其 中 训练 输入 为 让 二 1，V = 三山 则 是 目标 输出 。 显 式 地 使 用 权重 和 
偏差 来 表达 这 个 ， 我 们 有 二 72), Hh z = wz 十 b。 使 用 链 式 法 则 来 求 偏 导数 就 有 : 


C= : (54) 


— =(a-yb (zx = ao (z) (35) 


— =(a-yb (2) = ao (2), (36) 
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其 中 我 已 经 业 x 二 1 入 二 0 代入 了 。 为 了 理解 这 些 表达 式 的 行为 ， 让 我 们 仔细 看 了 (21 这 
一 项 。 首 先 回 忆 一 下 og BHR: 


sigmoid function 
1.0 


0.8 
0.6 
0.4 
0.2 
0.0 
我 们 可 以 从 这 幅 图 看 出 ， 当 神经 元 的 输出 接近 1 的 时 候 ， 曲 线 变 得 相当 平 ， 所 以 (2) 就 很 
小 了 。 方 程 (55) 和 (56) 也 告诉 我 们 OC /0w 和 0C op 会 非常 小 。 这 其 实 就 是 学 习 缓慢 的 原 


因 所 在 。 而 且 ， 我 们 后 面 也 会 提 到 ， 这 种 学 习 速 度 下 降 的 原因 实际 上 也 是 更 加 一 般 的 神经 网 
络 学 习 缓 慢 的 原因 ， 并 不 仅仅 是 在 这 个 特例 中 特有 的 。 


BIA BNC TE BX 


那么 我 们 如 何 解 决 这 个 问题 呢 ? AAR, FRAT A) Dat (Bc KS RARE 
价 函 数 。 为 了 理解 什么 是 交叉 丧 ， 我 们 稍微 改变 一 下 之 前 的 简单 例子 。 假 设 ， 我 们 现在 要 训 
练 一 个 包含 若干 输入 变量 的 的 神经 元 ，El1,zas;:... 对 应 的 权重 为 WI. Wa,... Ae, b: 


神经 元 的 输出 就 是 9 = o(2), Hh = 二 Lj 十 是 输入 的 带 权 和 。 我 们 如 下 定义 交叉 
NM ERX : 
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_ e ee ee ada wel 
C= pase y) In(1 — a)], (57) 


HH n 是 训练 数据 的 总 数 ， 对 所 有 的 训练 数据 r 和 对 应 的 目标 输出 VY 进行 求 和 。 


公 却 (57) 是 否 解决 学 习 缓慢 的 问题 并 不 明显 。 实 际 上 ， 划 至 将 这 个 定义 看 做 是 代价 范 数 也 不 是 
显而易见 的 ! 在 解决 学 习 缓 慢 琢 ， 我 们 来 看 看 交叉 焙 为 何 能 够 解释 成 一 个 代价 画 效 。 


FZZ KWEMERKARGKREA. B—, TEERAA, C>0, JUMAH : (a) 公式 (57) 
的 和 式 中 所 有 独立 的 项 都 是 非 负 的 ， 因 为 对 数 画 数 的 定义 域 是 (0, 1) ; (b) 前 面 有 一 个 负 号 。 


第 二 ， 如 果 神 经 元 实际 的 输出 接近 目标 值 。 假 设 在 这 个 例子 中 ， YTUMa=0, BER 
想到 得 到 的 结果 。 我 们 看 到 公式 (57) 中 第 一 个 项 就 消去 了 ， 因 为 三 0U， 而 第 二 项 实际 上 就 是 
n(1-a)=0, gz, Y= 二 1 而 a 1。 所 以 在 实际 输出 和 目标 输出 之 间 的 差距 越 小 ， 最 
X AIST AAA MERS T o 
be ERME, ZZA%YKAIEŃEJ, EHA mT SIRE ASN RSH, RER RERIN 
REMC NASH. Hs 2 Rb 2 AM PRKE A, MA, ZN AERA 
dE [o (HEZRIENMNIAKE —DTEŁ"ZAM ERZE FAJFFIEM IE TIE T FIR PiE 
Nit, ATRAER NAN, KukEGZNERARTAEWWSK, Bie = ale) 
代入 到 公式 57) 中 应 用 两 次 链 式 法 则 ， 得 到 : 


oC _ 1l y  (U-y) \ odo 
w aa ale os 


] | g ŚR: trv. | 
_ -a 2(3571-5)76% (59) 


将 结果 合并 一 下 ， 简 化 成 : 


X 


oC _ ly oR 、_ 
w T n Yt oe oe) - (60) 


根据 9(2) = l/l 十 e“) 的 定义 ， 和 一 些 运 算 ， 我 们 可 以 得 到 0 (2) = alll- alz), 
后 面 在 练习 中 会 要 求 你 计算 这 个 ， 现 在 可 以 直接 使 用 这 个 结果 。 我 们 看 到 和 
o(z)(1-0(2)) 这 两 项 在 方程 中 直接 约 去 了 ， 所 以 最 终 形式 就 是 : 


OC l 
a E x;(o(z) — y). (61) 
Wj n P 
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这 是 一 个 优美 的 公式 。 它 告诉 我 们 权重 学 习 的 速度 受到 Fl2) 一 Y， 也 就 是 输出 中 的 误差 的 控 
制 。 更 大 的 误 和 下， 更 快 的 学 习 速 度 。 这 是 我 们 直觉 上 期 符 的 结果 。 特 别 地 ， 这 个 代价 函数 还 
避免 了 像 在 二 次 代价 函数 中 类 似 公式 中 0 (2) 导致 的 学 习 缓 慢 ， 见 公式 (55)。 当 我 们 使 用 交叉 
wim, 7 (2) 被 约 掉 了 ， 所 以 我 们 不 再 需要 关心 它 是 不 是 变 得 很 小 。 这 种 约 除 就 是 交叉 炳 
带 来 的 特效 。 实 际 上 ， 这 也 并 不 是 非常 奇迹 的 事情 。 我 们 在 后 面 可 以 看 到 ， 交 叉 烦 其 实 只 是 
满足 这 种 特性 的 一 种 选择 黑 了 。 


根据 类 似 的 方法 ， 我 们 可 以 计算 出 关于 偏差 的 偏 导 数 。 我 这 里 不 再 给 出 详细 的 过 程 ， 你 可 以 
轻易 验证 得 到 

一 D (2) — y) (62) 

一 一 三 一 O\Z) —Y). 0 

ob n <= 


练习 


o g T (z) = o(z)(l-o(z)), 
让 我 们 重 回 最 原初 的 例子 ， 来 看 看 换 成 了 交叉 炳 之 后 的 学 习 过 程 。 现 在 仍然 按照 前 面 的 参数 
配置 来 初始 化 网 络 ， 开 始 权重 为 (0.6， 而 偏 舌 为 0.9。 上 点 击 “Run" 按 钮 看 看 在 换 成 交叉 精 之 后 
网 络 的 学 习 情 况 : 
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坚 不 奇怪 ， 在 这 个 例子 中 ， 利 经 元 学 习 得 相当 出 色 ， 跟 之 前 震 不 多 。 现 在 我 们 再 看 看 之 前 出 
问题 的 那个 例子 ， 权 重 和 仿 差 都 初始 化 为 2.0 : 
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成 功 了 | 这 次 人 神经 元 的 学 习 速 度 相 当 快 ， 跟 我 们 预期 的 那样 。 如 果 你 观测 的 足够 仔细 ， 你 可 
以 发 现代 价 函 数 曲 线 要 比 二 次 代价 函数 训练 前 面部 分 要 陡 很 多 。 正 是 交叉 灶 带 来 的 快速 下 降 
的 坡度 让 和 神经 元 在 处 于 误差 很 大 的 情况 下 能 够 逃脱 出 学 习 缓 慢 的 困境 ， 这 地 是 我 们 站 觉 上 所 
期 待 的 效果 。 


我 们 还 没有 提 及 关于 学 习 率 的 讨论 。 刚 开始 使 用 二 次 代价 函数 的 时 候 ， 我 们 使 用 了 1 — U.l 
。 在 新 例子 中 ， 我 们 还 应 该 使 用 同样 的 学 习 率 么 ? 实际 上 ， 根 据 不 同 的 代价 函数 ， 我 们 不 能 
够 直接 去 套用 同样 的 学 习 率 。 这 好 上 比 茶 果 和 检 子 的 比较 。 对 于 这 两 种 代价 函数 ， 我 只 是 通过 
简单 的 实验 来 找到 一 个 能 够 让 我 们 看 清楚 变化 过 程 的 学 习 率 的 值 。 尽 管 我 不 愿意 提 及 ， 但 如 
果 你 仍然 好 奇 ， 这 个 例子 中 我 使 用 了 ”二 0.005, 


你 可 能 会 反对 说 ， 上 面 学 习 率 的 改变 使 得 上 面 的 图 失去 了 意义 。 谁 会 在 意 当 学 习 率 的 选择 是 
任意 挑选 的 时 候 和 神经 元 学 习 的 速度 ?| 这 样 的 反对 其 实 没有 抓 住 重点 。 上 面 的 图 例 不 是 想 讨 
论 学 习 的 绝对 速度 。 而 是 想 研 究 学 习 速 度 的 变化 情况 。 特 别 地 ， 当 我 们 使 用 二 次 代价 函数 
时 ， 学 习 在 俐 经 元 犯 了 明显 的 错误 的 时 候 却 比 学 习 快 接近 真实 值 的 时 候 缓 慢 ; 而 使 用 交叉 炳 
学 习 正 是 在 俐 经 元 犯 了 明显 错误 的 时 候 速 度 更 快 。 这 些 现象 并 不 是 因为 学 习 率 的 改变 造成 
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的 。 


我 们 已 经 研究 了 一 个 伸 经 元 的 交叉 焙 。 不 过 ， 将 其 推广 到 多 个 神经 元 的 多 层 伸 经 网 络 上 也 是 
L F 

RBA, Keath, BY Yoyo BBL Bee, M1 “3:*…… 是 实际 输 

HH (io ABA FRE Be MIAO F 


l 
C=—- Ż 2 ly; nat +(1-y;)lnl-ah)|. (63) 


PR BRE PATCH RAMA, aR RMR RAIAN) 40 ZEŃ 
会 给 出 一 个 推算 的 过 程 ， 但 需要 说 明 的 时 使 用 公 陈 (63) 确 实 会 在 很 多 的 第 经 网 络 中 避免 学 习 的 
缓慢 。 如 果 你 感 兴趣 ， 你 可 以 党 试 一 下 下 面 问题 的 推导 。 


AB 3% 1112 RTE DY RAI RBRO RAN BRM? 实际 上 ， 如 果 在 输出 神经 元 使 用 
sigmoid 激活 男 数 时 ， 交 叉 灶 一 般 痢 是 更 好 的 选择 。 为 什么 ?考虑 一 下 我 们 初始 化 网 络 的 时 候 
通常 使 用 某 种 随机 方法 。 可 能 会 发 生 这 样 的 情况 ， 这 些 初 始 选择 会 对 某 些 训练 输入 误差 相当 
明显 一 一 比如 说 ， 目 标 输出 是 1， 而 实际 值 是 0， 或 者 完全 反 过 来 。 如 果 我 们 使 用 二 次 代价 函 
数 ， 那 么 这 就 会 导致 学 习 速 度 的 下 降 。 它 并 不 会 完全 终止 学 习 的 过 程 ， 因 为 这 些 权 重 会 持续 
从 其 他 的 样本 中 进行 学 习 ， 但 是 显然 这 不 是 我 们 想 要 的 效果 。 





练习 


e 一 个 小 问题 束 是 刚 接 触 交 叉 炳 时 ， 很 难 一 下 子 记 住 那些 表达 式 对 应 的 角色 。 又 比如 说 ， 

表达 式 的 正确 形式 是 — lylna + (1— y) ln(1 一 a)| 或 者 
alny+(l=a)ln(fl=y)| zy=0siż | 的 时 候 第 二 个 表达 式 的 结果 怎样 ?这 
个 问题 会 影响 第 一 个 表达 式 么 ?为 什么 ? 

。 在 对 单个 神经 元 讨论 中 ， 我 们 指出 如 果 对 所 有 的 训练 数据 有 92) FV, RMA. 
这 个 论断 其 实 是 和 站 只 是 等 于 1 RAV 有关 。 这 在 分 类 问题 一 般 是 可 行 的 ， 但 是 对 其 他 
的 问题 (如 回 轨 问 题 ) y TAR O AD 1 Zieh aN, GBA, RAE 9(2) — vary 
MERJEK. JG R ZZ RRM : 





l 
C = 一 一 > ylny+(1=y)ln(l —y)|. (64) 
ar, 


而 其 中 一 lylny 十 (1 一 VY) In(1 — y)| 有 时 候 被 称 为 oy 


© 多 层 多 人 第 经 元 网 络 用 上 一 章 的 定义 符号 ， 证 明 对 二 次 代价 函数 ， 关 于 输出 层 的 权重 的 偏 
导数 为 
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ów 


1 1 
Z zj) oe TE — “Tat HH 71H EX (AA $ BĘ RAY PIE EBA EAR MICE 


OC l hę 
a 2% ak — ydo h). (65) 
JK X 


数 ， 针 对 一 个 训练 样本 r 的 输出 误差 JY 为 


6=a'—y. (66) 


使 用 这 个 表达 式 来 证 明天 于 输出 层 的 权重 的 偏 导 数 为 


OC | x 
a 7 了 
— = — ğal! (al — yj). (67) 
Ow" n 

jk x 

a 
这 里 l) HRT, ALIA TSIM, Rew BE-MASTE, MA 
ES STS LŻREFH, NT PAE bt Et, WOR Rte RR 
确定 ， 那 么 请 仔细 研读 一 下 前 面 的 分 析 。 





。 在 输出 层 使 用 线性 神经 元 时 使 用 二 次 代价 玉 数 假设 我 们 有 一 个 多 层 多 神经 元 网 络 ， 最 终 
aż =z“ .、 
i 了 1 下 


输出 层 的 神经 元 都 是 线性 的 ， 输 出 不 再 是 sigmoid 函数 作用 的 结果 ， 而 是 “; 
明 如 果 我 们 使 用 二 次 代价 函数 ， 那 么 对 单个 训练 样本 ¢ 的 输出 误差 就 是 


p =a" —y (68) 


类 似 于 前 一 个 问题 ， 使 用 这 个 表达 式 来 证 明 关于 输出 层 的 权重 和 偏差 的 偏 导数 为 


OC l | 
aj” > at! (ak — yj) (69) 
OC l | 

dy = » (at — yj). (70) 


这 表明 如 果 输 出 神经 元 是 线性 的 那么 二 次 代价 函数 不 再 会 导致 学 习 速 度 下 降 的 问题 。 在 此 情 





形 下 ， 二 次 代价 范 效 融 是 一 种 合适 的 选择 。 


米 


(i FAAS MZ SET MNIST 数字 进行 分 类 
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ZX WIRA DIF A BREE PRN RAR TREFS J AJ RARER. KTH RE 
T—=żtf xf BUIEJAJŻEFE network.py 的 改进 。 新 的 程序 写 在 network2.py 中 ， 不 仅 使 用 TZ 
叉 炳 ， 还 有 本 章 中 介绍 的 其 他 的 技术 。 现 在 我 们 看 看 新 的 程序 在 进行 MNIST 数字 分 类 问题 上 
的 和 表现。 如 在 第 一 章 中 那样 ， 我 们 会 使 用 一 个 包含 30 个 隐藏 元 的 网 络 ， 而 minibatch 的 大 小 
也 设置 为 10。 我 们 将 学 习 率 设置 为 中 二 UO 然后 训练 30 回合 。 network2.py 的 接口 和 
network.py 稍微 不 同 ， 但 是 过 程 还 是 很 清楚 的 。 你 可 以 使 用 如 help(network2.Network.SGD) 
这 样 的 命令 来 检查 对 应 的 文档 。 


>>> import mnist_loader 
>>> training_data, validation_data, test _ data = \ 
... mnist_loader.load_data_wrapper( ) 
>>> import network2 
>>> net = network2.Network([/84, 30, 10], cost=network2.CrossEntropyCost ) 
>>> net.large_weight_initializer( ) 
>>> net.SGD(training_data, 30, 10, 0.5, evaluation_data=test_data, 
. monitor _evaluation_accuracy=True) 


注意 看 下 ， net.large_weight_initializer() 命令 使 用 和 第 一 章 介绍 的 同 样 的 方式 来 进行 权重 
和 偏差 的 初始 人 化。 运行 上 面 的 代码 我 们 得 到 了 一 个 95.49% 准确 度 的 网 络 。 这 跟 我 们 在 第 一 
章 中 使 用 二 次 代价 函数 得 到 的 结果 相当 接近 了 ，95.42%。 


同样 也 来 试 试 使 用 100 个 隐藏 元 的 交叉 灶 及 其 他 参数 保持 不 变 的 情况 。 在 这 个 情形 下 ， 我 们 
获得 了 96.82% 的 准确 度 。 相 比 第 一 章 使 用 二 次 代价 函数 的 结果 96.59%， 这 有 一 定 的 提升 。 
这 看 起 来 是 一 个 小 小 的 变化 ， 但 是 考虑 到 误差 率 已 经 从 3.41% 下 降 到 3.18% 了。 我 们 已 经 消 
除了 原 误差 的 1/14。 这 其 实 是 可 观 的 改进 。 


BARS NER MARINER TRN WRA BHR. FAM, REAR RABE 
ff EET EAR 32 he BN. RREFR OAH REMUS, minibatch 大 小 等 等 
这 样 的 超 参 数 上 做 出 了 一 些 努 力 。 为 了 让 这 些 提 升 更 具 说 服 力 ， 我 们 需要 进行 对 超 参数 进行 
深度 的 优 人 化。 当然， 这些 结果 都 挺 好 的 ， 强 化 了 我 们 早先 关于 交叉 炳 优 于 二 次 代价 的 理论 论 
IT 


这 只 是 本 章 后 面 的 内 容 和 整 本 书 剩余 内 容 中 的 更 为 一 般 的 模式 的 一 部 分 。 我 们 将 给 出 一 个 新 
的 反 术 ， 然 后 进行 尝试 ， 随 后 获得 “提升 的 结果。 当然 ， 看 到 这 些 进步 是 很 好 的 。 但 是 这 些 提 
升 的 解释 一 般 来 说 都 困难 重重 。 在 进行 了 大 量 工作 来 优化 所 有 其 他 的 超 参 数 ， 使 得 提升 真 的 
具有 说 服 力 。 工 作 量 很 大 ， 需 要 大 量 的 计算 能 力 ， 我 们 也 不 会 进行 这 样 耗费 的 调查 。 相 反 ， 
我 采用 上 面 进行 的 那些 不 正式 的 测试 来 达成 目标 。 所 以 你 要 记 住 这 样 的 测试 缺少 确定 性 的 证 
明 ， 需 要 注意 那些 使 得 论断 失效 的 信号 。 


Bib, BWiNOAC SAS RIT aN. A st— TREE — ma ra Retest AFR KEE 
费 这 人 么 多 的 精力 ? 后 面 ， 我 们 会 看 到 其 他 的 技术 一 一 规范 化 ， 会 带 来 更 大 的 提升 效果 。 所 以 
Ay APY BX 28 Bb jj r8 2ŻXRIK ? BORAT ZX ET AINE, BRA 
理解 。 但 是 更 加 重要 的 原因 是 第 经 元 的 饱和 是 伸 经 网 络 中 一 个 天 键 的 问题 ， 整 本 书 都 会 不 断 
回 为 到 这 个 问题 上 。 因 此 我 现在 深入 讨论 交叉 炳 束 是 因为 这 是 一 种 开始 理解 神经 元 饱和 和 如 
何 解 决 这 个 问题 的 很 好 的 实验 。 
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Z X JEBIE x ? JH RE ? 


FRAT ST F 20 X IKA] EZRARTEWADATAMCHKA, KAZAR, (Bethe BS PARE 
回答 的 更 加 宽泛 的 概念 上 的 问题 ， 如 : RRMA ? FE-EBB EREN I 
的 方法 么 ?我们 如 何 想 到 这 个 概念 ? 


让 我 们 从 最 后 一 个 问题 开始 回答 : (RES MR TB aI XA PRR RMSE RE FR 
降 了 ， 并 理解 其 原因 是 因为 在 公式 (55)(56) 中 的 T (2) 那 一 项 。 在 研究 了 这 些 公式 后 ， 我 们 可 
能 就 会 想到 选择 一 个 不 包含 (2) 的 代价 画 数 。 所 以 ， 这 时 候 对 一 个 训练 样本 r, KOK 
BC=C, 就 满足 : 


— = xj(a— y) (71) 


B g (12) 

— =(a-y). | 

ob 
MARRIED A Ha EERE, PAR EHNA EZ FE iR ZEBĘ NSD RE 
Nix FE ARRE, 2X tH RES HER RE RIN eR, RE, Me Both, HAIER 


们 看 看 看 是 跟随 自身 的 数学 噢 党 推导 出 交叉 炳 的 形式 是 可 能 的 。 我 们 来 推 一 下 ， 由 链 式 法 
则 ， 我 们 有 


= = 2-0 (2). (73) 
d 

(sg o (z) = o(z)(1 — o(z)) =a(1 a), 上 个 等 式 就 变 成 

— = all -a). (74) 
Md 


对 比 等 式 (72)， 我 们 有 
OC a-y 
da all-a) 


对 此 方程 关于 a 进行 积分 ， 得 到 


(75) 


C = -[ylna + (1 —y) In(1 — a)] + constant, (76) 


其 中 constant 是 积分 常量 。 这 是 一 个 单独 的 训练 样本 了 对 代价 函数 的 贡献 。 为 了 得 到 整个 
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的 代价 函数 ， 我 们 需要 对 所 有 的 训练 样本 进行 平均 ， 得 到 了 


om Y [ylna+ (1 —y) In(1 — a)] + constant, (77) 
ái A 


而 这 里 的 常量 就 是 所 有 单独 的 常量 的 平均 。 所 以 我 们 看 到 方程 (71) 和 (72) 唯 一 确定 了 交叉 炳 的 
形式 ， 并 加 上 了 一 个 常量 的 项 。 这 个 交叉 并 不 是 凭空 产 生 的 。 而 是 一 种 我 们 以 自然 和 简单 
的 方法 获得 的 结果 。 


MWANAE ALLEA ? KUJ EFE ? 深入 解释 这 一 点 会 将 我 们 带 到 一 个 不 大 愿 
意 讨论 的 领域 。 然 而 ， 还 是 值得 提 一 下 ， 有 一 种 源 自信 息 论 的 解释 交叉 灼 标准 方式 。 粗 略 
thi, 20 X hi ln TAJĘE (measure of surprise) 。 特 别 地 ， 我 们 的 神经 元 想 要 要 计算 函数 
r —> y= y(t), 92, CARAT a= alt) 进行 了 替换 。 假 设 我 们 和 将 a 想象 成 我 们 神 
经 元 估计 二 1 概率 ， 而 1 一 a 则 是 二 的 概率 。 如 果 输 出 我 们 期 望 的 结果 ， 惊 奇 就 会 小 
一 点 ; 反之 ， 惊 言 束 大 一 些 。 当 然 ， 我 这 里 没有 严格 地 给 出 “惊奇 "到 底 意 味 着 什么 ， 所 以 看 起 
来 像 在 奎 奎 奇谈。 但 是 实际 上 ， 在 信息 论 中 有 一 种 准确 的 方式 来 定义 惊奇 究竟 是 什么 。 不 

过 ， 我 也 不 清楚 在 网 络 上 ， 哪 里 有 好 的 ， 短 小 的 自 包 含 对 这 个 内 容 的 讨论 。 但 如 果 你 要 深入 
了 解 的 话 ，Wikipedia 包含 一 个 简短 的 总 结 ， 这 会 指引 你 正确 地 探索 这 个 领域 。 而 更 加 细节 的 
内 容 ， 你 们 可 以 阅读 Cover and Thomas 的 第 五 章 涉及 Kraft 不 等 式 的 有 关 信 息 论 的 内 容 。 


je] A 


© 我 们 已 经 深入 讨论 了 使 用 二 次 代价 函数 的 网 络 中 在 输出 神经 元 饱和 时 候 学 习 缓 慢 的 问 
题 ， 另 一 个 可 能 会 影响 学 习 的 因素 就 是 在 方程 (61) 中 的 "i 项 。 由 于 此 项 ， 当 输入 “7 接 
近 虽 时 ， 对 应 的 权重 “i 会 学 习 得 相当 缓慢 。 解 释 为 何不 可 以 通过 改变 代价 函数 来 消除 
Tj 项 的 影响 。 


Softmax 


AS, RAZZE ARFA NIBKARARE JRE BE, RAL RESNA- 
下 基于 softmax 神经 元 层 的 解决 这 个 问题 的 另 一 种 观点 。 我 们 不 会 实际 在 剩 下 的 章节 中 
使 用 softmax 层 ， 所 以 你 如 果 赶 时 间 ， 就 可 以 跳 到 下 一 个 小 节 了 。 不 过 ，softmax 仍然 有 
其 重要 价值 ， 一 方面 它 本 身 很 有 趣 ， 另 一 方面 ， 因 为 我 们 会 在 第 六 章 在 对 深度 神经 网 络 
的 讨论 中 使 用 softmax 层 。 

softmax 的 想法 其 实 束 是 为 神经 网 络 定义 一 种 新 陈 的 输出 屋 。 开 始 时 和 sigmoid 层 一 样 的 ， 首 

„b _ Sal „LL 1 pl OM a 
先 计 算 带 权 输 入 ża ot ad 1 b, 。 不 过 ， 这 里 我 们 不 会 使 用 sigmoid HAKREM 
yh NA SL. 8 Ls Li 
出 。 而 是 ， 会 占用 一 种 叫做 softmax EAE “i 上 。 根 据 这 个 画 数 ， 激 活 值 ”“; 就 是 
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(78) 


aj 一 EE 

Dk ek 

其 中 ， 分 母 是 对 所 有 的 输出 神经 元 进行 求 和 。 

如 果 你 不 习惯 这 个 画 数 ， 方 程 (78) 可 能 看 起 来 会 比较 难 理 解 。 因 为 对 于 使 用 这 个 函数 的 原因 你 

\ 清 和 芭 。 为 了 更 好 地 理解 这 个 公 陈 ， 假 设 我 们 有 一 个 包含 四 个 输出 神经 元 的 伸 经 网 络 ， 对 应 
zo „b „b „DL 

四 个 带 权 输入 ， 表 示 为 “1 23 4 。 下 面 的 例子 可 以 进行 对 应 权 值 的 调整 ， 并 给 出 对 应 的 

„BL 
激活 值 的 图 像 。 可 以 通过 固定 其 他 值 ， 来 看 看 改变 4 的 值 会 产生 什么 样 的 影响 : 





zj = 2.5 | 
zy =-1 | 
zy = 3.2 | 
zz = 0.5 

| 
zj = 2.5 | 
zy =-1 | 
zz = 3.2 | 
za = 1.6 z 
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g 1 
Ea 
zł = 2.5 ar = 0.174 
0 1 
| 
o = -1 a> = 0.005 
0 1 
| 
7 | 
> =392 a3 = 0.349 
0 1 
= 
L = a’; = 0.472 
ZA = 3.5 A : 


这 里 给 出 了 三 个 选择 的 图 像 ， 建 议 去 原 网 站 体验 


在 我 们 增加 1 的 时 候 ， 你 可 以 看 到 对 应 激活 值 4 的 增加 ， 而 其 他 的 激活 值 就 在 下 降 。 类似 
地 ， 如 果 你 降低 I 那么 4 就 随 之 下 降 。 实 际 上 ， 如 果 你 仔细 看 ， 你 会 发 现在 两 种 情形 下 ， 
其 他 激活 值 的 整个 改变 恰好 填补 了 4 的 变化 的 空白 。 原 因 很 简单 ， 根 据 定义 ， 输 出 的 激活 值 
加 起 来 正好 为 1， 使 用 公式 (78) 我 们 可 以 证 明 : 


| zL 
j " De 


„L 、 
所 以 ， 如 果 “ 增加 ， 那 么 其 他 输出 激活 值 肯定 会 总 共 下 降 相同 的 量 ， 来 保证 和 式 为 |。 当 
然 ， 类 似 的 结论 对 其 他 的 激活 函数 也 需要 满足 。 


(79) 


方程 (78) 同 样 保证 输出 激活 值 都 是 正 数 ， 因 为 指数 函数 是 正 的 。 将 这 两 点 结合 起 来 ， 我 们 看 到 
softmax 层 的 输出 是 一 些 相 加 为 1 正 数 的 集合 。 换 车 之 ，softmax 层 的 输出 可 以 被 看 做 是 一 个 
概率 分 布 。 


这 样 的 效果 很 舍 人 满意 。 在 很 多 问题 中 ， 闻 这 些 激活 值 作为 网 络 对 于 某 个 输出 正确 的 概率 的 
L 

估计 非常 方便 。 所 以 ， 上 比如 在 MNIST 分 类 问题 中 ， 我 们 可 以 将 “ 解释 成 网 络 估计 正确 数字 

分 类 为 7 的 概率 。 

对 比 一 下 ， 如 果 输 出 层 是 sigmoid 层 ， 那 么 我 们 肯定 不 能 假设 激活 值 形 成 了 一 个 概率 分 布 。 

我 不 会 证 明 这 一 点 ， 但 是 源 自 sigmoid 层 的 激活 值 是 不 能 够 形成 一 种 概率 分 布 的 一 般 形 式 

的 。 所 以 使 用 sigmoid 输出 层 ， 我 们 没有 关于 输出 的 激活 值 的 简单 的 解释 。 
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练习 


L 
。 构造 例子 表明 在 使 用 sigmoid 输出 层 的 网 络 中 输出 激活 值 “7 的 和 并 不 会 确保 为 1。 
我 们 现在 开始 体会 到 softmax 玉 数 的 形式 和 行为 特征 了 。 来 回顾 一 下 : 在 公式 (78) 中 的 指数 函 
数 确保 了 所 有 的 输出 激活 值 是 正 数 。 然 后 分 母 的 求 和 又 保证 了 softmax 的 输出 和 为 1。 所 以 这 
个 特定 的 形式 不 再 像 之 前 那样 难以 理解 了 : 反而 是 一 种 确保 输出 激活 值 形成 一 个 概率 分 布 的 
_L l 
自然 的 方式 。 你 可 以 将 其 想象 成 一 种 重新 调节 I 的 方法 ， 然 后 将 这 个 结果 整合 起 来 构成 一 个 


练习 


全 


L 
kE D 


i BAL | ok A 
e softmax 的 单调 性 i PAAR J= E n da, | Ozę 为 正 ， 否 则 为 负 。 结 果 是 ， 增 加 * 
提高 对 应 的 输出 激活 值 of 并 降低 其 他 所 有 输出 激活 值 。 我 们 已 经 在 滑 条 示例 中 实验 性 地 
看 到 了 这 一 点 ， 这 里 需要 你 给 出 一 个 严格 证 明 。 
L L/L 
e softmax 的 非 局 部 性 sigmoid 层 的 一 个 好 处 是 输出 “i 是 对 应 带 权 输 入 “i 一 azy) g 
L 
KA AREA xt F softmax 来 说 ， 并 不 是 这 样 的 情况 : 仍 和 特定 的 输出 激活 值 “i 依赖 
所 有 的 带 权 输 入 。 


je] A 


L 
e 逆转 softmax E 假设 我 们 有 一 个 使 用 softmax 输出 层 的 神经 网 络 ， 然 后 激活 值 “i 已 
„Ło Lo gr 
知 。 证 明 对 应 带 权 输 入 的 形式 为 2 Maj TC, arm C 是 独立 于 了 的 。 
学 习 缓 慢 问 题 : 我 们 现在 已 经 对 softmax 神经 元 有 了 一 定 的 认识 。 但 是 我 们 还 没有 看 到 
softmax 会 怎么 样 解决 学 习 缓 慢 问 题 。 为 了 理解 这 点 ， 先 定义 一 个 log-likelihood 代价 函数 。 


我 们 使 用 r 表示 训练 输入 ，W 表示 对 应 的 目标 输出 。 然 后 天 联 这 个 训练 输入 样本 的 log- 
likelihood 代价 函数 束 是 


C=— Inay. (80) 


所 以 ， 如 果 我 们 训练 的 是 MNIST 图 像 ， 输 入 为 了 的 图 像 ， 那 么 对 点 的 log-likelihood 代价 就 
是 一 In af 。 看 看 这 个 直觉 上 的 含义 ， 想 想 当 网 络 表现 很 好 的 时 候 ， 也 就 是 确认 输入 为 了 的 
时 候 。 这 时 ， 他 会 估计 一 个 对 应 的 概率 OF 跟 1 非常 接近 ， 所 以 代价 UAT 就 会 很 小 。 反 
之 ， 如 果 网 络 的 表现 糟糕 时 ， 概 率 07 就 变 得 很 小 ， 代 价 Ua 随 之 增 大 。 所 以 log- 
likelihood 代价 函数 也 是 满足 我 们 期 符 的 代价 函数 的 条 件 的 。 


那 关于 学 习 缓 慢 问题 呢 ? 为 了 分 析 它 ， 回 想 一 下 学 习 缓慢 的 关键 就 是 量 避 Cu 六 和 
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F , i cs i, 
OC Op; 的 变化 情况 。 我 不 会 显 式 地 给 出 详细 的 推导 
是 会 给 出 一 些 关 键 的 步骤 : 


请 你 们 自己 去 完成 这 个 过 程 一 一 但 


a 8D 





= ak "(al — yj) (82) 


请 注意 这 里 的 表示 上 的 差异 ， 这 里 的 丸和 之 前 的 目标 输出 值 不 同 ， 是 离散 的 向 量 表 示 ， 
对 应 位 的 值 为 1， 而 其 他 为 0。 这 些 方 程 其 实 和 我 们 表面 对 交叉 炳 得 到 的 类 似 。 束 拿 方 
程 (82) 和 (67) 比较 。 尽 管 后 者 我 对 整个 训练 样本 进行 了 平均 ， 不 过 形式 还 是 一 致 的 。 而 
且 ， 正 如 前 面 的 分 析 ， 这 芋 表 达 陈 确保 我 们 不 会 遇 到 学 习 缓 慢 的 问题 。 实 际 上 ， 将 
softmax żą4 HH E FI log-likelihood 组 合 对 照 sigmoid żą4 HH E FZ WBA A Kb SSE 
BA HA8. 


有 了 这 样 的 相似 性 ， 你 会 使 用 哪 一 种 呢 ? 实际 上 ， 在 很 多 应 用 场景 中 ， 这 两 种 方式 的 效果 都 
不 错 。 本 章 剩 下 的 内 容 ， 我 们 会 使 用 sigmoid AEZ MAAS. AA, EBARA, 
我 们 有 时 候 会 使 用 softmax H 2 Al log-likelihood 的 则 和 。 切 换 的 原因 就 是 为 了 让 我 们 的 网 
络 和 菏 些 在 具有 影响 力 的 学 术 论 文中 的 形式 更 为 相似 。 作 为 一 种 更 加 通用 的 视角 ，softmax 加 
上 log-likelihood 的 组 合 更 加 适用 于 那些 需要 将 输出 激活 值 解释 为 概率 的 场景 。 当 然 这 不 总 是 
合理 的 ， 但 是 在 诸如 MNIST 这 种 有 着 不 重 党 的 分 类 问题 上 确实 很 有 用 。 


je] A 


e 推导 方程 (81) 和 (82) 
e softmax 这 个 名 称 从 何人 处 来 ? 假设 我 们 改变 一 下 softmax 画 数 ， 使 得 输出 激活 值 定义 如 
下 


e fi 


其 中 r 是 正 的 常量 。 注 意 5 = 二 1 对 应 标准 的 softmax HR. (BBWAA PACA c 得 到 

不 同 的 函数 ， 其 实 最终 的 量 的 结果 却 和 原来 的 softmax 差不多 。 特 别 地 ， 证 明 输 出 激活 值 也 
L 

会 形成 一 个 概率 分 布 。 假 设 我 们 人 允许 c 足够 大 ， 上 比如 说 c > 920。 那么 输出 激活 值 “i 的 极限 

值 是 什么 ?在 解决 了 这 个 问题 后 ， 你 应 该 能 够 理解 cc = 1 对 应 的 酌 数 是 一 个 最 大 化 函数 的 

softened 版 本 。 这 束 是 softmax 的 来 源 。 


ae — 


(83) 


这 让 我 联想 到 EM 算法 ， 对 k-Means 算法 的 一 种 推广 。 
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e softmax 和 log-likelihood 的 反 向 传播 上 一 章 ， 我 们 推 到 了 使 用 sigmoid 层 的 反 向 传播 
算法 。 为 了 应 用 在 softmax 层 的 网 络 上 ， 我 们 需要 搞 清楚 最 后 一 层 上 误差 的 表示 


ch — aria ek 
0; = OC; dz; o 证 明 形 式 如 下 - 


ô; 一 a; — yj. (84) 


使 用 这 个 表达 式 ， 我 们 可 以 应 用 反 向 传播 在 采用 了 softmax 输出 层 和 log-likelihood 的 网 络 
aż; 


过 匹配 和 规 沁 化 


诺 贝 尔 奖 得 主 美 籍 意大利 页 物理 学 家 恩 里 科 : 费 米 便 航 问 到 他 对 一 个 同僚 提出 的 党 试 解决 一 个 
重要 的 未 解决 物理 难题 的 数学 模型 。 模 型 和 实验 非 弟 匹配 ， 但 是 费 米 却 对 其 产生 了 怀疑 。 他 
问 模型 中 需要 设置 的 目 由 参数 有 多 少 个 。 答 加 是 “4"。 费 米 回 答 道 : “我 记得 我 的 朋友 约翰 : 冯 - 
诺 依 曼 过 去 前 说 ， 有 四 个 参数 ， 我 可 以 模拟 一 头 大 象 ， 而 有 五 个 参数 ， 我 还 能 让 他 谷 异 子 。” 


这 里 ， 其 实 是 说 拥有 大 量 的 自由 参数 的 模型 能 够 揪 述 特别 神奇 的 现象 。 即 使 这 样 的 模型 能 够 
很 好 的 拟 合 已 有 的 数据 ， 但 并 不 表示 是 一 个 好 模型 。 因 为 这 可 能 只 是 因为 模型 中 足够 的 自由 
上 度 使 得 它 可 以 拉 述 几乎 所 有 给 定 大 小 的 数据 集 ， 不 需要 对 现象 的 本 质 有 创新 的 认 台 。 所 以 发 
生 这 种 情形 时 ， 模 型 对 已 有 的 数据 会 表现 的 很 好 ， 但 是 对 新 的 数据 很 难 泛 化 。 对 一 个 模型 真 
正 的 测验 融 是 它 对 没有 见 过 的 场景 的 预测 能 


费 米 和 冯 . 诺 依 曼 对 有 四 个 参数 的 模型 就 开始 怀疑 了 。 我 们 用 来 对 MNIST 数字 分 类 的 30 个 隐 
藏 神经 元 神经 网 络 拥有 将 近 24, 000 个 参数 ! 当然 很 多 。 我 们 有 100 个 隐藏 元 的 网 络 拥有 将 
近 50,000 个 参数 ， 而 目前 最 先进 的 深度 神经 网 络 包 含 百 万 级 或 者 十 亿 级 的 参数 。 我 们 应 当 
信赖 这 些 结 果 么 ? 


让 我 们 将 问题 暴露 出 来 ， 通 过 构造 一 个 网 络 泛 化 能 力 很 差 的 例子 。 我 们 的 网 络 有 30 个 隐藏 神 
经 元 ， 共 23,860 个 参数 。 但 是 我 们 不 会 使 用 所 有 U, UUU 幅 训练 图 像 。 相 反 ， 我 们 只 使 用 

前 1000 幅 图 像 。 使 用 这 个 受 限 的 集合 ， 会 让 泛 化 的 问题 突显 。 按 照 同样 的 方式 ， 使 用 交叉 炳 
代价 函数 ， 学 习 率 设置 为 中 二 .9 而 minibatch 大 小 设置 为 10。 不 过 这 里 我 们 训练 回合 设置 
为 400， 比 前 面 的 要 多 很 多 ， 因 为 我 们 只 用 了 少量 的 训练 样本 。 我 们 现在 使 用 network2 来 研 
ze (KM RAK Z BIS : 


>>> import mnist_loader 

>>> training_data, validation_data, test _ data = \ 

... mnist_loader.load_data_wrapper( ) 

>>> import network2 

>>> net = network2.Network([/84, 30, 10], cost=network2.CrossEntropyCost ) 

>>> net.large_weight_initializer( ) 

>>> net.SGD(training_data|:1000]|], 400, 10, 0.5, evaluation_data=test_data, 
. monitor _evaluation_accuracy=True, monitor _training_cost=True) 
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使 用 上 面 的 结果 ， 我 们 可 以 画 出 代价 函数 变化 的 情况 : 


Cost on the training data 
0.010 | 





0.008 


0.00500 250 300 350 
Epoch 


这 看 起 来 分 人 振奋 ， 因 为 代价 函数 有 一 个 光滑 的 下 降 ， 跟 我 们 预期 一 致 。 注 


了 200 到 399 回合 的 情况 。 这 给 出 了 很 好 的 近 距 离 理 解 训 练 后 期 的 情况 ， 这 


象 的 地 方 。 
让 我 们 看 看 分 类 准确 度 在 测试 集 上 的 表现 : 
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Accuracy (%) on the test data 











81.3000 250 300 350 400 
Epoch 
这 里 我 还 是 聚焦 到 了 后 面 的 过 程 。 在 前 200 回合 (图 中 没有 显示 ) 准确 度 提 升 到 了 82% ŻA 


后 学 习 逐 渐变 缓 。 最 终 ， 在 280 回合 左右 分 类 准确 度 就 停止 了 增 基 。 后 面 的 回合 ， 仅 仅 看 到 
了 在 280 回合 准确 度 周转 随机 的 震荡 。 将 这 幅 图 和 前 面 的 图 进行 对 比 ， 和 训练 数据 相关 的 代 
价 函 数 持 续 平滑 下 降 。 如 果 我 们 只 看 哪个 代价 ， 我 们 会 发 现 模型 的 表现 变 得 “更 好 ”。 但 是 测试 
准确 度 展示 了 提升 只 是 一 种 假象 。 就 像 费 米 不 大 喜欢 的 那个 模型 一 样 ， 我 们 的 网 络 在 280 回 
合 后 束 不 在 能 够 繁华 到 测试 数据 上 。 所 以 这 种 学 习 不 大 有 用 。 也 可 以 说 网 络 在 280 RPL PL 
Ac (或 者 过 度 训练 ) fo 


你 可 能 想 知道 这 里 的 问题 是 不 是 由 于 我 们 看 的 是 训练 数据 的 代价 ， 而 对 比 的 却 是 测试 数据 上 
的 分 类 准确 度 导 致 的 。 换 言 之 ， 可 能 我 们 这 里 在 进行 葵 果 和 橙子 的 对 比 。 如 果 我 们 比较 训练 
数据 上 的 代价 和 测试 数据 上 的 代价 ， 会 发 生 什么 ， 我 们 是 在 比较 类 似 的 度量 么 ?或 者 可 能 我 
们 可 以 比较 在 两 个 数据 集 上 的 分 类 准确 度 啊 ?实际 上 ， 不 管 我 们 使 用 什么 度量 的 方式 尽管 ， 
细节 会 变化 ， 但 本 质 上 都 是 一 样 的 。 让 我 们 来 看 看 测试 数据 集 上 的 代价 变化 情况 : 
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Cost on the test data 
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我 们 可 以 看 到 测试 集 上 的 代价 在 15 回合 前 一 直 在 提升 ， 随 后 越 来 越 差 ， 尽 管 训练 数据 机 上 的 
代价 表现 是 越 来 越 好 的 。 这 其 实 是 另 一 种 模型 过 匹配 的 标志 。 尽 管 ， 这 里 带 来 了 关于 我 们 应 
当 将 15 还 是 280 回合 当 作 是 过 匹配 占 主导 的 时 间 点 的 困扰 。 从 一 个 实践 角度 ， 我 们 真 的 天 
心 的 是 提升 测试 数据 集 上 的 分 类 准确 度 ， 而 测试 集合 上 的 代价 不 过 是 分 类 准确 度 的 一 个 反 
应 。 所 以 更 加 合理 的 选择 就 是 将 280 看 成 是 过 匹配 开始 占 统治 地 位 的 时 间 点 。 


另 一 个 过 匹配 的 信号 在 训练 数据 上 的 分 类 准确 度 上 也 能 看 出 来 : 
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准确 度 一 直 在 提升 接近 100%。 也 融 是 说 ， 我 们 的 网 络 能 够 正确 地 对 所 有 1000 幅 图 像 进行 分 
类 | 而 在 同时 ， 我 们 的 测试 准确 度 仅 仅 能 够 达到 82.27%。 所 以 我 们 的 网 络 实际 上 在 学 习 训 练 
数据 集 的 特例 ， 而 不 是 能 够 一 般 地 进行 识别 。 我 们 的 网 络 几 乎 是 在 单纯 记忆 训练 集合 ， 而 没 
有 对 数字 本 质 进 行 理解 能 够 泛 化 到 测试 数据 集 上 。 


过 匹配 是 神经 网 络 的 一 个 主要 问题 。 这 在 现代 网 络 中 特别 正常 ， 因 为 网 络 权 重 和 偏差 数量 巨 
大 。 为 了 高 效 地 训练 ， 我 们 需要 一 种 检测 过 匹配 是 不 是 发 生 的 扶 术 ， 这 样 我 们 不 会 过 厦 训 
练 。 并 且 我 们 也 想 要 找到 一 些 技术 来 降低 过 匹配 的 影响 。 


仿 测 过 匹配 的 明显 方法 是 使 用 上 面 的 方法 一 一 跟踪 测试 数据 集合 上 的 准确 度 随 训练 变化 情 
况 。 如 果 我 们 看 到 测试 数据 上 的 准确 度 不 再 提升 ， 那 么 我 们 束 停 止 训练 。 当 然 ， 严 格 地 说 ， 
这 其 实 并 非 是 过 匹配 的 一 个 必要 现象 ， 因 为 测试 集 和 训练 集 上 的 准确 度 可 能 会 同时 停止 提 
升 。 当 然 ， 采 用 这 样 的 方式 是 可 以 阻止 过 匹配 的 。 





实际 上 ， 我 们 会 使 用 这 种 方式 变形 来 试验 。 记 得 之 前 我 们 载 入 MNIST 数据 的 时 候 有 : 


>>> import mnist_loader 
>>> training data, validation_data, test data = A 
. mnist_loader.load_data wrapper() 


到 现在 我 们 一 直 在 使 用 training_data 和 test data, 没有 用 过 
validation data. validation data 中 包 合 了 10, 000 BAFER, 3 ERA SHES 
中 的 30, UUU 幅 图 像 以 及 测试 数据 集中 的 10, O00 幅 都 不 相同 。 我 们 会 使 用 validation_data 


null ww ai bbt. com DODODDDDD 





null 


来 防止 过 匹配 。 我 们 会 使 用 和 上 面 应 用 在 test_data 的 策略 。 我 们 每 个 回合 都 计算 在 
validation_data 上 的 分 类 准确 度 。 一 旦 分 类 准确 度 已 经 饱和 ， 束 停止 训练 。 这 个 策略 被 称 为 
提前 停止 (Early stopping) 。 当 然 ， 实 际 应 用 中 ， 我 们 不 会 立即 知道 什么 时 候 准 确 度 会 馅 
和 。 相 反 ， 我 们 会 一 直 训 练 知 道 我 们 确信 准确 度 已 经 饱和 。 


这 里 需要 一 些 判 定 标 准 来 确定 什么 时 候 停 止 。 在 我 前 面 的 图 中 ， 将 280 回合 看 成 是 饱和 
的 地 方 。 可 能 这 有 后 太 茵 观 了 。 因 为 神经 网 络 有 时 候 会 训练 过 程 中 处 在 一 个 平原 期 ， 然 
后 又 开始 提升 。 如 果 在 400 回合 后 ， 性 能 又 开始 提升 (也许 只 是 一 些 少量 提升 ) ， 那 我 
也 不 会 诺 异 。 所 以 ， 在 提前 仿 止 中 采取 一 扣 流 进 的 策略 也 是 可 以 的 。 


为 何 要 使 用 validation data 来 替代 test_data 防止 过 匹配 问题 ?实际 上 ， 这 是 一 个 更 为 一 
般 的 策略 的 一 部 分 ， 这 个 一 般 的 策略 就 是 使 用 validation_data 来 衡量 不 同 的 超 参 数 (如 训练 
合 ， 学 习 率 ， 最 好 的 网 络 架 构 等 等 ) 的 选择 的 效果 。 我 们 使 用 这 样 方法 来 找到 超 参数 的 合 
适 值 。 因 此 ， 尽 管 到 现在 我 并 没有 提 及 这 和 点， 但 其 实 本 书 前 面 已 经 竹 微 介绍 了 一 些 超 参 数 选 

择 的 方法 。 


当然 ， 这 对 于 我 们 前 面 天 于 validation_data 取代 test_data 来 防止 过 匹配 的 原因 仍旧 没有 
回答 。 实际 上 ， 有 一 个 更 加 一 般 的 问题 ， 就 是 为 何 用 validation_ data 取代 test_data 来 设置 
更 好 的 超 参 数 ? 为 了 理解 这 点 ， 想 想 当 设置 超 参 数 时 ， 我 们 想 要 尝试 许多 不 同 的 超 参 数 选 

择 。 如 果 我 们 设置 超人 参数 是 基于 test_data 的 话 ， 可 能 最 终 我 们 就 会 得 到 过 匹配 于 

test_data 的 超 参 数 。 TRE iE 我 们 可 能 会 找到 那些 FA test_data 特点 的 超 参 数 ， 但 是 
网 络 的 性 能 并 不 能 够 泛 化 到 其 他 数据 集合 上 。 我 们 借助 validation data 来 克服 这 个 问题 。 然 
后 一 旦 获得 了 想 要 的 超 参 数 ， 最 终 我 们 就 使 用 test_data 进行 准确 度 测量 。 这 给 了 我 们 在 
test_data 上 结果 是 一 个 网 络 泛 化 能 力 真正 的 度量 方式 的 信心 。 换 言 之 ， 你 可 以 将 验证 集 看 成 
是 一 种 特殊 的 训练 效 据 集 能 够 帮助 我 们 学 习 好 的 超 参 数 。 这 种 寻找 好 的 超 参数 的 观点 有 时 候 
被 称 为 hold out 方法 ， 因 为 validation data 是 从 训练 集中 保留 出 来 的 一 部 分 。 


在 实际 应 用 中 ， 其 至 在 衡量 了 测试 集 上 的 性 能 后 ， 我 们 可 能 也 会 改变 想法 并 去 尝试 另外 的 方 
法 也 许 是 一 种 不 同 的 网 络 架构 这 将 会 引入 寻找 新 的 超 参 数 的 的 过 程 。 如 果 我 们 这 样 
做 ， 难 遗 不 会 产生 过 匹配 于 testdata 的 困境 么 ?我 们 是 不 是 需要 一 种 潜在 无 限 大 的 数据 集 
的 回 轨 ， 这 样 才 能 够 确信 模型 能 够 泛 化 ? 去除 这 样 的 疑惑 其 实 是 一 个 深刻 而 困难 的 问题 。 但 
是 对 实际 应 用 的 目标 ， 我 们 不 会 担心 太 多 。 相 有 反 ， 我 们 会 继续 采用 基于 training_data, 
validation_data，and test_data 的 基本 hold out 方法 。 








我 们 已 经 研究 了 在 使 用 1 O00 幅 训 练 图像 时 的 过 匹配 问题 。 那 么 如 果 我 们 使 用 所 有 的 训练 数 
据 会 发 生 什么 ?我们 会 保留 所 有 其 他 的 参数 都 一 样 (30 个 隐 减 元， 学 习 率 0.5，mini-batch 
规模 为 10) ， 但 是 训练 回合 为 30 次 。 下 图 展示 了 分 类 准确 度 在 训练 和 测试 集 上 的 变化 情 
况 。 注 意 我 们 使 用 的 测试 数据 ， 而 不 是 验证 集合 ， 为 了 让 结果 看 起 来 和 前 面 的 图 更 方便 比 


较 。 
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如 你 所 见 ， 测 试 集 和 训练 集 上 的 准确 度 相 比 我 们 使 用 1,UUU 个 训练 数据 时 相差 更 小 。 特 别 


之 前 的 例子 中 ， 这 个 差距 是 17.73% ! 过 匹配 仍然 发 生 了 ， 但 是 已 经 减轻 了 不 少 。 我 们 的 网 络 
从 训练 数据 上 更 好 地 泛 化 到 了 测试 数据 上 。 一 般 来 说 ， 最 好 的 降低 过 匹配 的 方式 之 一 就 是 增 
加 训练 样本 的 量 。 有 了 足够 的 训练 数据 ， 束 算是 一 个 规模 非常 大 的 网 络 也 不 大 容易 过 匹配 。 
不 垩 的 是 ， 训 练 数 据 其 实 是 很 难 或 者 很 昂贵 的 资源 ， 所 以 这 不 是 一 种 太 切 实际 的 选择 。 


规 沁 化 


增加 训练 样本 的 数量 是 一 种 减轻 过 匹配 的 方法 。 还 有 其 他 的 一 下 方法 能 够 减轻 过 匹配 的 程度 
么 ?一 种 可 行 的 方式 就 是 降低 网 络 的 规模 。 然 而 ， 大 的 网 络 拥 有 一 种 比 小 网 络 更 强 的 潜力 ， 
所 以 这 里 存在 一 种 应 用 元 余 性 的 选项 。 

幸运 的 是 ， 还 有 其 他 的 技术 能 够 缓解 过 匹配 ， 即 使 我 们 只 有 一 个 固定 的 网 络 和 固定 的 训练 集 
合 。 这 种 技术 就 是 规范化 。 本 节 ， 我 会 给 出 一 种 最 为 常用 的 规范 化 手段 一 一 有 时 候 被 称 为 权 
= FRE (weight decay) 或 者 L2 规范 化 。L2 规范 化 的 想法 是 增加 一 个 额外 的 项 到 代价 函数 
上 ， 这 个 项 叫做 规范 化 项 。 下 面 是 规范 化 交叉 炳 : 


l 1 
C=-— Ż b; naj + (1 — y) nl — aj)| + 5- Ż w”. (85) 


x] 
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其 中 第 一 个 项 就 是 常规 的 交叉 粒 的 表达 式 。 第 二 个 现在 加 入 到 就 是 所有 权重 的 平方 的 和 。 然 
后 使 用 一 个 因子 A/N 进 和 5 量化 调整 ， 其 中 A > 0 可 以 成 为 规范 化 参数 ， 而 /就 是 训练 集 
合 的 大 小 。 我 们 会 在 后 面 讨论 A 的 选择 策略 。 需 要 注意 的 是 ， 规 范 化 项 里 面 并 不 包含 偏差 。 
这 点 我 们 后 面 也 会 在 讲述 。 


当然 ， 对 其 他 的 代价 函数 也 可 以 进行 规 沁 化 ， 例 如 二 次 代价 函数 。 类 似 的 规范 化 的 形式 如 
F: 


= l | | Ln2 A 2 
C= z, dll atl a? de (86) 
两 者 都 可 以 写成 这 样 : 
C= C+ yw (87) 
" Am » | 


其 中 Cy) 是 原始 的 代价 函数 。 


直觉 地 看 ， 规 沁 化 的 效果 是 让 网 络 倾向 于 学 习 小 一 点 的 权重 ， 其 他 的 东西 都 一 样 的 。 大 的 权 
重 只 有 能 够 给 出 代价 了 责 数 第 一 项 足够 的 提升 时 地 被 允许 。 换 言 之 ， 规 沁 化 可 以 当做 一 种 寻找 
小 的 权重 和 最 小 化 原始 的 代价 函数 之 间 的 折 中 。 这 两 部 分 之 前 相对 的 重要 性 束 由 入 的 值 来 控 
制 了 : A 越 小 ， 束 偏向 于 最 小 化 原始 代价 孙 数 ， 反 之 ， 倾 向 于 小 的 权重 。 


现在 ， 对 于 这 样 的 折 中 为 何 能 够 减轻 过 匹配 还 不 是 很 清楚 ! 但 是 ， 实 际 表 现 表明 了 这 点 。 我 
们 会 在 下 一 节 来 回答 这 个 问题 。 但 现在 ， 我 们 来 看 看 一 个 规范化 的 确 减 轻 过 匹配 的 例子 。 


为 了 构造 这 个 例子 ， 我 们 首先 需要 弄 清 楚 如 何 将 随机 梯度 下 降 算法 应 用 在 一 个 规范 化 的 神经 
网 络 上 。 特 别 地 ， 我 们 需要 知道 如 何 计 算 偏 导数 C19W 和 9Ci 闻 。 对 公式 (87) 进 行 求 偏 导 
BG : 


aC OC A 

H a R 38 
u ma e 
aC aCo = 
db ob (S 


OC) /Ow 和 OCy/0b 可 以 通过 反 向 传播 进行 计算 ， 和 上 一 章 中 的 那样 。 所 以 我 们 看 到 其 实 计 


FARBER RE ER BN : 仅仅 需要 反 向 传播 ， 然 后 加 上 ， aw 得 到 所 有 权重 的 
fe. MZ eS RT Bib, PARE TEF FMR RE RIE: 
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NK SEM "IF (91) 
a an 99 


nA 
这 其 实 和 通常 的 梯度 下 降 学 习 规 则 相同 欧 诺 个 ， 除 了 乘 了 上 一 7 因子 。 这 里 就 是 权重 下 降 的 
来 源 。 粗 看 ， 这 样 会 导致 权重 会 不 断 下 降 到 1 有。 但 是 实际 不 是 这 样 的 ， 因 为 如 果 在 原始 代价 画 
数 中 造成 下 降 的 话 其 他 的 项 可 能 会 让 权重 增加 。 


好 的 ， 这 就 是 梯度 下 降 工 作 的 原理 。 那 么 随机 梯度 下 降 呢 ?正如 在 没有 规范 化 的 随机 梯度 下 
降 中 ， 我 们 可 以 通过 平均 minibatch 中 m 个 训练 样本 来 估计 OC ea。 因此 ， 为 了 随机 梯度 
下 降 的 规范 化 学 习 规 则 束 变 成 (参考 方程 (20)) 


n OC; 
w ( gpI” T~ " 


其 中 后 面 一 项 是 对 minibatch 中 的 训练 样本 r 进行 求 和 ， 而 Ce 是 对 每 个 训练 样本 的 (无 规 


沁 化 的 ) 代价 。 这 其 实 和 之 前 通 弟 的 随机 梯度 下 降 的 规则 是 一 样 的 ， 除 了 有 一 个 权重 下 降 的 
| A 
AF! 看。 最 后 ， 为 了 完备 性 ， 我 给 出 偏差 的 规范 化 的 学 习 规则 。 这 当然 是 和 我 们 之 前 的 


非 规 沁 化 的 情形 一 至 了 (参考 公式 (32)) 


(94) 





这 里 也 是 对 minibatch 中 的 训练 样本 r 进行 求 和 的 。 


让 我 们 看 看 规 沁 化 给 网 络 带 来 的 性 能 提升 吧 。 这 里 还 会 使 用 有 30 个 隐藏 神经 元 、minibatch 
为 0 ， 学 习 率 为 0.5， 使 用 交叉 冰 的 神经 网 络 。 然 而 ， 这 次 我 们 会 使 用 规范 化 参数 为 

三 赂 .1。 注 意 在 代码 中 ， 我 们 使 用 的 变量 名 字 为 Imbda ， 这 是 因为 在 Python 中 lambda 是 
关键 字 ， 尤 其 特定 的 作用 。 我 也 会 使 用 test_data ， 而 不 是 validation_data 。 不 过 严格 地 

讲 ， 我 们 应 当 使 用 validation_data 的 ， 因 为 前 面 已 经 讲 过 了 。 这 里 我 这 样 做 ， 是 因为 这 会 让 
结果 和 非 规 沁 化 的 结果 对 上 比 起 来 效果 更 加 让 接 。 你 可 以 轻松 地 调整 为 validation_data , 你 会 
发 现 有 相似 的 结果 。 
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>>> 
>>> 


import mnist_loader 
training_data, validation_data, test _ data = \ 


. mnist_loader.load_data _wrapper( ) 


>>> 
>>> 
>>> 
>>> 


import network2 

net = network2.Network([784, 30, 10], cost=network2.CrossEntropyCost ) 
net.large_weight_initializer() 

net.SGD(training_data[:1000], 400, 10, 0.5, 


. evaluation_data=test_data, lmbda = 0.1, 
. monitor_evaluation_cost=True, monitor_evaluation_accuracy=True, 
. monitor_training_cost=True, monitor_training_accuracy=True) 


训练 集 上 的 代价 函数 持续 下 降 ， 和 前 面 无 规范 化 的 情况 一 样 的 规律 : 


| Cost on the training data 
0.26 | 
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但 是 这 里 测试 集 上 的 准确 度 是 随 在 回合 次 数 持续 增加 的 : 


null 
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Accuracy (%) on the test data 
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显然 ， 规 区 化 的 使 用 能 够 解决 过 匹配 的 问题 。 而 且 ， 准 确 度 相当 扩 了 ， 最 高 处 达到 了 


87.1%， 相 较 于 之 前 的 82.27%。 因 此 ， 我 们 几乎 可 以 确信 持续 训练 会 有 更 加 好 的 结果 。 实 验 
起 来 ， 规 范 化 让 网 络 具 有 更 好 的 泛 化 能 力 ， 显 著 地 减轻 了 过 匹配 的 效果 。 
如 果 我 们 换 成 全 部 的 训练 数据 进行 训练 呢 ? 当然 ， 我 们 之 前 已 经 看 到 过 匹配 在 大 规模 的 数据 
上 其 实 不 是 那么 明显 了 。 那 规范 化 能 不 能 起 到 相应 的 作用 呢 ?保持 超 参 数 和 之 前 一 样 。 不 过 
我 们 这 里 需要 改变 规范 化 参数 。 原 因 在 于 训练 数据 的 大 小 已 经 从 天 三 1,000 改 成 了 

| | | nA 
n = 50, 000， 这 个 会 改变 权重 下 降 因 子 上 一 看。 如 果 我 们 持续 使 用 入 = 0.1 就 会 产生 很 小 
的 权重 下 降 ， 因 此 就 料 规范 化 的 效果 降低 很 多 。 我 们 通过 将 A = 5.0 来 补偿 这 种 下 降 。 


好 了 ， 来 训练 网 络 ， 重 新 初始 化 权重 : 


>>> net.large_weight_initializer( ) 
>>> net.SGD(training_data, 30, 10, 0.5, 
. evaluation_data=test data, lmbda = 5.0, 
. monitor _evaluation_accuracy=True, monitor _training _accuracy=True) 


我 们 得 到 : 
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到 96.49%。 这 是 个 很 大 的 进步 。 第 二 ， 我 们 可 以 看 到 在 训练 数据 和 测试 数据 上 的 结果 之 间 的 
差距 也 更 小 了 。 这 仍然 是 一 个 大 的 差距 ， 不 过 我 们 已 经 显著 得 到 了 本 质 上 的 降低 过 匹配 的 进 
步 


fe) 


后 ， 我 们 看 看 在 使 用 100 个 隐藏 元 和 规 沁 化 参数 为 A = 0.0 相应 的 测试 分 类 准确 度 。 我 不 
给 出 详细 分 析 ， 融 为 了 有 趣 ， 来 看 看 我 们 使 用 一 些 技巧 (IXAKA L2 EL) Fes 
到 多 高 的 准确 度 。 


= 
HZ 
AN 
一 
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>>> net = network2.Network([784, 100, 10], cost=network2.CrossEntropyCost) 
>>> net.large_weight_initializer( ) 
>>> net.SGD(training_data, 30, 10, 0.5, lmbda=5.0, 

. evaluation_data=validation_data, 

. monitor_evaluation_accuracy=True) 


最 终 在 验证 集 上 的 准确 度 达 到 了 97.92%, Xbb 30 个 隐藏 元 的 较 大 飞跃 。 实 际 上 ， 稍 微 改 
e—A, 60a =UlLMA=5.0, RART 98%， 达 到 了 98.04% 的 分 类 准确 
度 。 对 于 152 行 代码 这 个 效果 还 真 不 错 ! 


我 们 讨论 了 作为 一 种 减轻 过 匹配 和 提高 分 类 准确 度 的 方式 的 规范 化 技术 。 实 际 上 ， 这 不 是 仅 
有 的 好 处 。 实 践 表 明 ， 在 使 用 不 同 的 〈 随 机 ) 权重 初始 化 进行 多 次 MNIST 网 络 训练 的 时 候 ， 
我 发 现 无 规 沁 化 的 网 络 会 偶然 引 限 制 住 ， 明 显 困 在 了 代价 函数 的 局 部 最 优 值 处 。 结 果 束 是 不 
同 的 运行 会 给 出 相差 很 大 的 结果 。 对 比 看 来 ， 规 范 化 的 网 络 能 够 提供 更 容易 复制 的 结果 。 
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为 何 会 这 样子 ?3 从 经 验 上 看 ， 如 果 代 价 函 数 是 无 规范 化 的 ， 那 么 权重 向 量 的 长 度 可 能 会 增 
长 ， 而 其 他 的 东西 都 保持 一 样 。 随 着 时 间 的 推移 ， 这 个 会 导致 权重 向 量变 得 非常 大 。 所 以 会 
使 得 权重 向 困 在 差不多 方向 上 ， 因 为 由 于 梯度 下 降 的 改变 当 长 度 很 大 的 时 候 仅 仅 会 在 那个 方 
向 发 生 微 小 的 变化 。 我 相信 这 个 现象 让 学 习 算法 更 难 有 效 地 探索 权重 空间 ， 最 终 导 致 很 难 找 
到 代价 函数 的 最 优 值 。 


为 何 规 沁 化 可 以 攻 助 减轻 过 匹配 


我 们 已 经 看 到 了 规范 化 在 实践 中 能 够 减少 过 匹配 了 。 这 是 全 人 振奋 的 ， 不 过 ， 这 背后 的 原因 
还 不 得 而 知 | 通 弟 的 说 法 是 : 小 的 权重 在 某 种 程度 上 ， 意味 看 更 低 的 复 末 性 ， 也 融 给 出 了 一 
种 更 简单 却 黑 强 大 的 数据 解释 ， 因 此 应 该 优先 选择 。 这 虽然 很 簿 短 ， 不 过 上 暗 减 了 一 些 可 能 
起 来 会 分 人 困惑 的 因素 。 让 我 们 将 这 个 解释 细 化 ， 认 真 地 研究 一 下 。 现 在 给 一 个 简单 的 数据 
集 ， 我 们 为 其 建立 模型 : 





这 里 我 们 其 实在 研究 某 种 真实 的 现象 ，z 和 表示 真实 的 数据 。 我 们 的 目标 是 训练 一 个 模型 
KRM Y XF r 的 画 数 。 我 们 可 以 使 用 神经 网 络 来 构建 这 个 模型 ， 但 是 我 们 先 来 个 简单 的 : 
用 一 个 多 项 式 来 拟 合 数据 。 这 样 做 的 原因 其 实 是 多 项 式 相 比 和 神经 网 络 能 够 让 事情 变 得 更 加 清 
楚 。 一 旦 我 们 理解 了 多 项 式 的 场景 ， 对 于 神经 网 络 可 以 如 法 炮制 。 现 在 ， 图 中 有 十 个 点 ， 我 
们 就 可 以 找到 唯一 的 9 tp Sas Y= Gow” 十 air +... +ag 来 完全 拟 合 数据 。 下 面 是 多 项 
陈 的 图 像 : 


| won't show the coefficients explicitly, although they are easy to find using a routine 
such as Numpy's polyfit . You can view the exact form of the polynomial in the source 
code for the graph If you're curious. It's the function p(x) defined starting on line 14 of 
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the program which produces the graph. 
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给 出 了 一 个 完美 的 拟 合 。 但 是 我 们 同 祥 也 能 够 使 用 线性 模型 % = 22 得 到 一 个 好 的 拟 合 效 


X 
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哪个 是 更 好 的 模型 ? 哪个 更 可 能 是 真 的 ? 还 有 哪个 模型 更 可 能 沁 化 到 其 他 的 拥有 同样 现象 的 
样本 上 ? 


这 些 都 是 很 难 回答 的 问题 。 实 际 上 ， 我 们 如 果 没 有 天 于 现象 背后 的 信息 的 话 ， 并 不 能 确定 给 
出 上 面 任何 一 个 问题 的 答 宁 。 但 是 让 我 们 考虑 两 种 可 能 的 情况 : (1) 9 阶 多 项 式 实际 上 是 完 
全 描述 了 真实 情况 的 模型 ， 最 终 它 能 够 很 好 地 泛 化 ; (2) 正确 的 模型 是 二 ir, DEFE 
看 由 于 测量 误 才 导致 的 额外 的 噪声 ， 使 得 模型 不 能 够 准确 拟 合 。 


先 验 假设 无 法 说 出 哪个 是 正确 的 (或 者 ， 如 果 还 有 其 他 的 情况 出 现 ) 。 逻 辑 上 讲 ， 这 些 都 可 
能 出 现 。 并 且 这 不 是 易 见 的 差异 。 在 给 出 的 数据 上 ， 两 个 模型 的 表现 其 实 是 差不多 的 。 但 是 
假设 我 们 想 要 预测 对 应 于 某 个 超过 了 图 中 所 有 的 r 的 的 值 ， 在 两 个 模型 给 出 的 结果 之 间 肯 
定 有 一 个 极 大 的 差距 ， 因 为 9 阶 多 项 式 模型 肯定 会 被 z” 主导 ， 而 线性 模型 只 是 线性 的 增长 。 


在 科学 中 ， 一 种 观点 是 我 们 除非 不 得 已 应 该 追随 更 简单 的 解释 。 当 我 们 找到 一 个 简单 模型 似 
乎 能 够 解释 很 多 数据 样本 的 时 候 ， 我 们 都 会 激动 地 认为 发 现 了 规律 ! 总之， 这 看 起 来 简单 的 
解决 仅仅 会 是 偶然 出 现 的 不 大 可 能 。 我 们 怀疑 模型 必须 表达 出 东 些 关于 现象 的 内 在 的 真理 。 
如 上 面 的 例子 ， 线 性 模型 加 噪声 肯定 比 多 项 式 更 加 可 能 。 所 以 如 果 简 单 性 是 偶然 出 现 的 话 就 
很 分 人 译 异 。 因 此 我 们 会 认为 线性 模型 加 噪声 表达 除了 一 些 潜在 的 真理 。 从 这 个 角度 看 ， 多 
项 式 模 型 仅仅 是 学 习 到 了 局 部 噪声 的 影响 效果 。 所 以 尽管 多 是 对 于 这 些 特定 的 数据 点 表现 得 
很 好 。 模 型 最 终 会 在 未 知 数据 上 的 泛 化 上 出 现 问 题 ， 所 以 噪声 线性 模型 具有 更 强大 的 预测 能 
Jiz 


让 我 们 从 这 个 观点 来 看 神经 网 络 。 假 设 神 经 网 络 大 多 数 有 很 小 的 权重 ， 这 最 可 能 出 现在 规范 
化 的 网 络 中 。 更 小 的 权重 意味 着 网 络 的 行为 不 会 因为 我 们 随便 改变 了 一 个 输入 而 改变 太 大 。 
这 会 让 规范 化 网 络 学 习 局 部 噪声 的 影响 更 加 困难 。 将 它 看 做 是 一 种 让 单个 的 证 据 不 会 影响 网 
络 输出 太 多 的 方式 。 相 对 的 ， 规 沁 化 网 络 学 习 去 对 整个 训练 集中 经 党 出 现 的 证 据 进 行 反 应 。 
对 比 看 ， 大 权重 的 网 络 可 能 会 因为 输入 的 微小 改变 而 产生 比较 大 的 行为 改变 。 所 以 一 个 无 规 
范 化 的 网 络 可 以 使 用 大 的 权重 来 学 习 包 含 训练 数据 中 的 噪声 的 大 量 信 息 的 复 灯 模型 。 薪 并 

之 ， 规 范 化 网 络 受 限于 根据 训练 数据 中 常见 的 模式 来 构造 相对 简单 的 模型 ， 而 能 够 抵抗 训练 
数据 中 的 噪声 的 特性 影响 。 我 们 的 想法 融 是 这 可 以 让 我 们 的 网 络 对 看 到 的 现象 进行 真实 的 学 
习 ， 并 能 够 根据 已 经 学 到 的 知识 更 好 地 进行 泛 化 。 


所 以 ， 倾 向 于 更 简单 的 解释 的 想法 其 实 会 让 我 们 觉得 紧张 。 人 们 有 时 候 将 这 个 想法 称 为 " 奥 卡 
姆 剃刀 原则 ”， 然 后 就 会 热情 地 将 其 当成 某 种 科学 原理 来 应 用 这 个 法 则 。 但 是 ， 这 就 不 是 一 个 
一 般 的 科学 原理 。 也 没有 任何 先 验 的 逻辑 原因 来 说 明 简 单 的 解释 就 比 更 为 负责 的 解释 要 好 。 
实际 上 ， 有 时 候 更 加 复 条 的 解释 其 实 是 正确 的 。 


让 我 介绍 两 个 说 明 复 条 正确 的 例子 。 在 1940 年 代 ， 物 理学 家 Marcel Schein 发 布 了 一 个 发 现 
新 粒子 的 声明 。 而 他 工作 的 公司 ，GE， 非 常 欢喜 ， 就 广泛 地 推广 这 个 发 现 。 但 是 物理 学 及 
Hans Bethe 就 有 怀疑 。Bethe 访问 了 Schein， 看 着 那些 展示 Schein 的 新 粒子 的 轨 人 迹 的 盘 
子 。 但 是 在 每 个 plate E, Bethe 都 发 现 了 某 个 说 明 数 据 需 要 被 去 除 的 问题 。 最 后 Schein R 
示 给 Bethe 一 个 看 起 来 很 好 的 plate, Bethe 说 这 可 能 就 是 一 个 统计 上 的 侥幸 。 Schein 

i, “使 得 ， 但 是 这 个 可 能 就 是 统计 学 ， 甚 至 是 根据 你 自己 的 公式 ， 也 就 是 1/0 的 概率 。” 
Bethe 说 : “但 我 们 已 经 看 过 了 这 5 个 plate T” R, Schein 说 : “但 是 在 我 的 plate 中 ， 
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个 好 的 plate， 每 个 好 的 场景 ， 你 使 用 了 不 同 的 理论 (说 它们 是 新 的 粒子 ) 进行 解释 ， 而 我 只 
有 一 种 假设 来 解释 所 有 的 plate. ” Bethe 回答 说 ，“ 在 你 和 我 的 解释 之 间 的 唯一 差别 束 是 你 的 
是 错 的 ， 而 我 所 有 的 观点 是 正确 的 。 你 单一 的 解释 是 错误 的 ， 我 的 多 重 解 释 所 有 都 是 正确 
的 。" 后 续 的 工作 证 实 了 ，Bethe 的 想法 是 正确 的 而 Schein 粒子 不 再 正确 。 


注意 : 这 一 段 翻译 得 很 不 好 ， 请 参考 原文 


第 二 个 例子 ， 在 1859 年 ， 天 文学 家 Urbain Le Verrier 观察 到 水 星 并 没有 按照 牛顿 万 有 引力 
给 出 的 轨迹 进行 运转 。 与 牛顿 力学 只 有 很 小 的 偏差 ， 那 时 候 一 些 解 释 就 是 牛顿 力学 需要 一 些 
微小 的 改动 了 。 在 1916 年 爱 因 斯 坦 证 明 偏 甜 用 他 的 广义 相对 论 可 以 解释 得 更 好 ， 这 是 一 种 和 
牛顿 重力 体系 相差 很 大 的 理论 ， 基 于 更 复 末 的 数学 。 尽 管 引 和 人 了 更 多 的 复杂 性 ， 现 如 今 爱 因 
斯 坦 的 解释 其 实 是 正确 的 ， 而 牛顿 力学 即使 加 入 一 些 调 整 ， 仍 旧 是 错误 的 。 这 部 分 因为 我 们 
知道 爱 因 斯 坦 的 理论 不 仅仅 解释 了 这 个 问题 ， 还 有 很 多 其 他 牛顿 力学 无 法 解释 的 问题 也 能 够 
完美 解释 。 另外 ， 邻 人 印象 深刻 的 是 ， 爱 因 斯 坦 的 理论 准确 地 给 出 了 一 些 牛 顿 力 学 没 能 够 预 
测 到 的 显现 。 但 是 这 些 命 人 印象 深刻 的 现象 其 实在 先前 的 时 代 是 观测 不 到 的 。 如 果 一 个 人 仅 
仅 通过 简单 性 作为 判断 合理 模型 的 基础 ， 那 么 一 些 牛 上 顿 力 学 的 改进 理论 可 能 会 看 起 来 更 加 合 
理 一 些 。 


从 这 些 故事 中 可 以 读 出 三 点 。 第 一 ， 确 定 两 种 解释 中 哪个 “更 加 简单 ?其实 是 一 件 相 当 微 妙 的 工 
作 。 第 二 ， 即 使 我 们 可 以 做 出 这 样 一 个 判断 ， 简 单 性 也 是 一 个 使 用 时 需要 相当 小 心 的 指导 | 
第 三 ， 对 模型 真正 的 测试 不 是 简单 性 ， 而 是 它 在 新 场景 中 对 新 的 活动 中 的 预测 能 


所 以 ， 我 们 应 当时 时 记 住 这 一 点 ， 规 沁 化 的 神经 网 络 常常 能 够 比 非 规 沁 化 的 泛 化 能 力 更 强 ， 
这 只 是 一 种 实验 事实 (empirical fact) 。 所 以 ， 本 书 剩 下 的 内 容 ， 我 们 也 会 频繁 地 使 用 规范 化 
技术 。 我 已 经 在 上 面 讲 过 了 为 何 现 在 还 没有 一 个 人 能 够 发 展 出 一 整套 具有 说 服 力 的 关于 规范 
化 可 以 帮助 网 络 泛 化 的 理论 解释 。 实 际 上 ， 研 究 者 们 不 断 地 在 写 上 自己 党 试 不 同 的 规范 化 方 
法 ， 然 后 看 看 哪 种 表现 更 好 ， 党 试 理解 为 何不 同 的 观点 表现 的 更 好 。 所 以 你 可 以 将 规范 化 看 
做 某 种 任意 整合 的 技术 。 尽 管 其 效果 不 错 ， 但 我 们 并 没有 一 套 完 整 的 关于 所 发 生 情 况 的 理 
解 ， 仅 仅 是 一 些 不 完备 的 启发 式 规 则 或 者 经 验 。 


这 里 也 有 更 深 的 问题 ， 这 个 问题 也 是 有 关 科 学 的 关键 问 题 一 我 们 如 何 沁 化 。 规 范 化 能 够 给 
我 们 一 种 计算 上 的 魔力 帮助 第 经 网 络 更 好 地 泛 化 ， 但 是 并 不 会 带 来 原理 上 理解 的 指导 ， 其 至 
SBS UF RTT DEY ra ERT AY 





XDA MBBS A A, TCH SERA R (RGR "An Enquiry Concerning 
Human Understanding" (1748) 中 提出 。 在 现代 机 器 学 习 领 域 中 为 纳 问 题 估 David 
Wolpert 和 William Macready 描述 成 无 免费 午餐 定理 。 


这 实在 是 全 人 困扰 ， 因 为 在 日 党 生活 中 ， 我 们 人 类 在 泛 化 上 表现 很 好 。 给 一 个 儿童 几 幅 大 象 
的 图 片 ， 他 就 能 快速 地 学 会 认识 其 他 的 大 象 。 当 然 ， 他 们 偶尔 也 会 搞 错 ， 很 可 能 将 一 只 犀牛 
误 认 为 大 象 ， 但 是 一 般 说 来 ， 这 个 过 程 会 相当 准确 。 所 以 我 们 有 个 系统 一 一 人 的 大 脑 一 一 拥 
有 超大 量 的 自由 变量 。 在 受到 仅仅 少量 的 训练 图 像 后 ， 系 统 学 会 了 在 其 他 图 像 的 推广 。 某 种 
程度 上 ， 我 们 的 大 脑 的 规范 化 做 得 特别 好 ! 怎么 做 的 ? 现在 还 不 得 而 知 。 我 期 望 若干 年 后 ， 
我 们 能 够 发 展 出 更 加 强大 的 拷 术 来 规 沁 化 俐 经 网 络 ， 最 终 这 些 技术 会 让 神经 网 络 其 至 在 小 的 
训练 集 上 也 能 够 学 到 强大 的 泛 化 能 力 。 
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实际 上 ， 我 们 的 网 络 已 经 比 我 们 预先 期 望 的 要 好 一 些 了 。 拥 有 100 个 隐藏 元 的 网 络 会 有 接近 
50, UUU 个 参数 。 我 们 的 训练 集 仅 仅 有 20,000 幅 图像 。 这 好 像 是 用 一 个 50, UUU 阶 的 多 项 式 
来 拟 合 0, UUU 个 数据 点 。 我 们 的 网 络 肯 定 会 过 匹配 得 很 严重 。 但 是 ， 这 样 的 网 络 实际 上 却 
泛 化 得 很 好 。 为 什么 ?这 一 点 并 没有 很 好 滴 理 解 。 这 里 有 个 猜想 : 梯度 下 降 学 习 的 动态 有 一 
种 自 规范 化 的 效应 。 这 真是 一 个 意料 之 外 的 巧合 ， 但 也 带 来 了 对 于 这 种 现象 本 质 无 知 的 不 
安 。 不 过 ， 我 们 还 是 会 在 后 面 依照 这 种 实践 的 观点 来 应 用 规范 化 技术 的 。 神经 网 络 也 是 由 于 
这 点 表现 才 更 好 一 些 。 


现在 我 们 回 到 前 面 留 下 来 的 一 个 细节 : L2 规范 化 没有 限制 偏差 ， 以 此 作为 本 节 的 结论 。 当 然 
了 ， 对 规 学 化 的 过 程 和 作 调整 束 可 以 对 偏差 进行 规 沁 了 。 实 践 看 来 ， 做 出 这 样 的 调整 并 不 会 
对 结果 改变 太 多 ， 所 以 ， 在 某 种 程度 上 ， 对 不 对 偏 短 进行 规 沁 化 其 实 就 是 一 种 习惯 了 。 然 
而 ， 需 要 注意 的 是 ， 有 一 个 大 的 偏差 并 不 会 像 大 的 权重 那样 会 让 神经 元 对 输入 太 过 敏感 。 所 
以 我 们 不 需要 对 大 的 偏差 所 带 来 的 学 习 训 练 数据 的 噪声 太 过 担心 。 同 时 ， 人 允许 大 的 偏差 能 够 
让 网 络 更 加 灵活 一 一 因为 ， 大 的 偏差 让 和 神经 元 更 加 容易 饱和 ， 这 有 时 候 是 我 们 所 要 达到 的 效 
果 。 所 以 ， 我 们 通常 不 会 对 偏差 进行 规范 化 。 


规 沁 化 的 其 他 技术 


PRY L2 外 还 有 很 多 规范 化 技术 。 实 际 上 ， 正 是 由 于 数量 众多 ， 我 这 里 也 不 回 将 所 有 的 都 列举 
出 来 。 在 本 节 ， 我 简要 地 给 出 三 种 减轻 过 匹配 的 其 他 的 方法 : L1 规范 化 、dropout 和 人 工 增 
加 训练 样本 。 我 们 不 会 像 上 面 介 绍 得 那么 深入 。 其 实 ， 目 的 只 是 想 让 读者 熟悉 这 些 主要 的 思 
想 ， 然 后 来 体会 一 下 规范 化 技术 的 多 样 性 。 





L1 规 泄 化 : 这 个 方法 其 实 是 在 代价 函数 上 加 上 一 个 权重 绝对 值 的 和 : 
本 
C= Cn 二 二 > Iwi. (95) 
z 
H 


直觉 上 看 ， 这 和 上 2 AIELAU, a AREE, MITFiILMzAJ REKA 4A, L1 规范 
化 和 L2 规范 化 并 不 相同 ， 所 以 我 们 不 应 该 期 望 L1 规范 化 是 进行 同样 的 行为 。 让 我 们 来 看 看 
试 着 理解 使 用 L1 规范 化 和 上 L2 规范 化 所 不 同 的 地 方 。 


首先 ， 我 们 会 研究 一 下 代价 函数 的 偏 导 数 。 对 (95) 求 导 我 们 有 : 


— = — + — sgn(w), (96) 
n 


其 中 sgn(w) 就 是 w ES. PADRA, FFI MLE AY [2 e EAT AM MI 
使 用 基于 L1 规 沁 化 的 随机 梯度 下 降 进 行 学 习 。 对 L1 eb ATT BPA ML AE 
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其 中 和 往常 一 样 ， 我 们 可 以 用 minibatch 的 均值 来 估计 PCo/ Dan。 对 比 公式 (93) 的 L2 规范 
化 ， 


(98) 


wow =w(1-— 


在 两 种 情形 下 ， 规 范 化 的 效果 就 是 缩小 权重 。 这 和 我 们 想 要 让 权重 不 会 太 大 的 直觉 目 标 相 
符 。 在 L1 规范 化 中 ， 权 重 按照 一 个 接近 0 的 常量 进行 缩小 。 在 L2 规范 化 中 ， 权 重 同 按照 一 
个 和 w 成 比例 的 量 进行 缩小 的 。 所 以 ， 当 一 个 特定 的 权重 绝对 值 | 刀 | 很 大 时 ，L1 规范 化 缩小 
得 远 比 L2 规范 化 要 小 得 多 。 而 一 个 特定 的 权重 绝对 值 | 好 | 很 小 时 ，L1 规范 化 权 值 要 比 L2 规 
范 化 缩小 得 更 大 。 最 终 的 结果 就 是 : L1 规范 化 倾向 于 聚集 网 络 的 权重 在 相对 少量 的 高 重要 度 
连接 上 ， 而 其 他 权重 就 会 被 驱使 向 0 接近 。 








我 在 上 面 的 讨论 中 其 实 忽略 了 一 个 问题 一 在 w = 0 的 时 人 息 ， 偏 导数 CVDu REL AA 
FRR Yl 在 w = 0 时 有 个 直角 ， 事 实 上 ， 导 数 是 不 存在 的 。 不 过 也 没有 关系 。 我 们 下 面 
要 做 的 就 是 应 用 无 规范 化 的 通常 的 梯度 下 降 的 规则 在 w= 处 。 这 应 该 不 会 有 什么 问题 ， 直 
觉 上 看 ， 规 沁 化 的 效果 束 是 缩小 权重 ， 显 然 ， 不 能 对 一 个 已 经 是 0 的 权重 进行 缩小 了 。 更 准 
确 地 说 ， 我 们 将 会 使 用 方程 (96)(97) 并 约定 597(0) = 0。 这 样 就 给 出 了 一 种 紧 致 的 规则 来 进 
行 采用 L1 规范 化 的 随机 梯度 下 降 学 习 。 





Dropout : Dropout 是 一 种 相当 激进 的 技术 。 和 L1、L2 规 沁 化 不 同 ，dropout 并 不 依赖 对 代 
价 落 数 的 变更 。 而 是 ， 在 dropout 中 ， 我 们 改变 了 网 络 本 身 。 让 我 在 给 出 为 何 工 作 的 原理 之 
前 描述 一 下 dropout 基本 的 工作 机 制 和 所 得 到 的 结果 。 


假设 我 们 堂 试 训练 一 个 网 络 : 
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特别 地 ， 假 设 我 们 有 一 个 训练 数据 r 和 对 应 的 目标 输出 Y。 通 常 我 们 会 通过 在 网 络 中 前 向 传 
播 r ， 然 后 进行 反 向 传播 来 确定 对 梯度 的 共 现 。 使 用 dropout， 这 个 过 程 束 改 了 。 我 们 会 从 随 
机 (临时 ) 地 删除 网 络 中 的 一 半 的 神经 元 开始 ， 让 输入 层 和 输出 层 的 神经 元 保持 不 变 。 在 此 
之 后 ， 我 们 会 得 到 最 终 的 网 络 。 注 意 那 些 被 dropout 的 神经 元 ， 即 那些 临时 性 删除 的 神经 
元 ， 用 虚 圈 表示 在 途中 : 


:一 一 
g at 
| 
T ~ “a 
Ma ` 
i 





我 们 前 向 传播 输入 ， 通 过 修改 后 的 网 络 ， 然 后 反 向 传播 结果 ， 同 样 通过 这 个 修改 后 的 网 络 。 
在 minibatch 的 若干 样本 上 进行 这 些 步 骤 后 ， 我 们 对 那些 权重 和 偏差 进行 更 新 。 然 后 重复 这 个 
过 程 ， 首 先 重 置 dropout 的 俐 经 元 ， 然 后 选择 新 的 随机 隐藏 元 的 子 集 进行 删除 ， 估 计 对 一 个 
不 同 的 minibatch 的 梯度 ， 然 后 更 新 权重 和 偏差 。 


通过 不 断 地 重复 ， 我 们 的 网 络 会 学 到 一 个 权重 和 偏差 的 集合 。 当 然 ， 这 些 权 重 和 偏差 也 是 在 
一 般 的 隐藏 元 补 丢 弄 的 情形 下 学 到 的 。 当 我 们 实际 运行 整个 网 络 时 ， 是 指 两 倍 的 隐藏 元 将 会 
被 激活 。 为 了 补偿 这 个 ， 我 们 料 从 隐藏 元 出 去 的 权重 减 半 了 。 

这 个 dropout 过 程 可 能 看 起 来 奇怪 和 ad hoc。 为 什么 我 们 期 待 这 样 的 方法 能 够 进行 规范 化 
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呢 ? 为 了 解释 所 发 生 的 事 ， 我 希望 你 停 下 来 想 一 下 没有 dropout 的 训练 方式 。 特 别 地 ， 想 象 
一 下 我 们 训练 几 个 不 同 的 神经 网 络 ， 使 用 的 同一 个 训练 数据 。 当 然 ， 网 络 可 能 不 是 从 同一 初 
始 状 态 开 始 的 ， 最 终 的 结果 也 会 有 一 些 差异 。 出 现 这 种 情况 时 ， 我 们 可 以 使 用 一 些 平 均 或 者 
及 票 的 方式 来 确定 接受 哪个 输出 。 例 如 ， 如 果 我 们 训练 了 五 个 网 络 ， 其 中 三 个 航 分 类 当做 是 3 
， 那 很 可 能 它 束 是 3。 另外 两 个 可 能 融 犯 了 错误 。 这 种 平均 的 方 陈 通 前 是 一 种 强大 (SEM 
昂贵 ) 的 方式 来 减轻 过 匹配 。 原 因 在 于 不 同 的 网 络 可 能 会 以 不 同 的 方式 过 匹配 ， 平 均 法 可 能 
会 帮助 我 们 消除 那样 的 过 匹配 。 


那么 这 和 dropout AARRE? PRAIA, RNANA TRAN, A RRR 
们 在 训练 不 同 的 神经 网 络 。 所 以 ，dropout 过 程 就 如 同 大 量 不 同 网 络 的 效果 的 平均 那样 。 不 同 
的 网 络 以 不 同 的 方式 过 匹配 了 ， 所 以 ，dropout 的 网 络 会 减轻 过 匹配 。 


一 个 相关 的 启发 式 解 释 在 早期 使 用 这 项 技术 的 论文 中 鲁 经 给 出 :“ 因 为 神经 元 不 能 依赖 其 他 和 神 
经 元 特定 的 存在 ， 这 个 技术 其 实 减 少 了 复杂 的 互 适 应 的 神经 元 。 所 以 ， 强 制 要 学 习 那 些 在 和 神 
经 元 的 不 同 随机 子 集中 更 加 健壮 的 特征 。" 换 训 之 ， 如 果 我 们 融 爱 那个 利 经 网 络 看 做 一 个 进行 
预测 的 模型 的 话 ， 我 们 就 可 以 将 dropout 看 做 是 一 种 确保 模型 对 于 证 据 丢 失 健 壮 的 方式 。 这 
样 看 来 ，dropout 47 L1, L2 规 沁 化 也 是 有 相似 之 处 的 ， 这 也 倾向 于 更 小 的 权重 ， 最 后 让 网 络 
对 丢失 个 体 连 接 的 场景 更 加 健壮 。 


当然 ， 真 正 衡量 dropout 的 方式 在 提升 神经 网 络 性 能 上 应 用 得 相当 成 功 。 原 始 论文 介绍 了 用 
来 解决 很 多 不 同 问 题 的 技术 。 对 我 们 来 说 ， 特 别 感 兴趣 的 是 他 们 应 用 dropout 在 MNIST 数字 
分 类 上 ， 使 用 了 一 个 和 我 们 之 前 介绍 的 那 种 初级 的 前 向 神经 网 络 。 这 篇 文章 天 注 到 最 好 的 结 
果 是 在 测试 集 上 去 得 到 98.4% 的 准确 度 。 他 们 使 用 dropout FI L2 规 沁 化 的 组 合 料 其 提高 到 了 
98.7% 类 似 重要 的 结果 在 其 他 不 同 的 任务 上 也 取得 了 一 定 的 成 效 。dropout 已 经 在 过 匹配 问 
题 尤 其 突出 的 训练 大 规模 深度 网 络 中 。 


人 工 扩 展 训练 数据 : 我 们 前 面 看 到 了 MNIST 分 类 准确 度 在 我 们 使 用 1 UUU 幅 训 练 图 像 时 候 

下 降 到 了 80 年 代 的 准确 度 。 这 种 情况 并 不 奇怪 ， 因 为 更 少 的 训练 数据 意味 着 我 们 的 网 络 所 接 
触 到 较 少 的 人 类 手写 的 数字 中 的 变化 。 让 我 们 训练 30 个 隐藏 元 的 网 络 ， 使 用 不 同 的 训练 数据 
集 ， 来 看 看 性 能 的 变化 情况 。 我 们 使 用 minibatch 大 小 为 10， 学 习 率 是 ”二 .9， 规 范 化 参 
数 是 A 二 5.0, ZARA RNS zk BIJEARO LA 30 TEA, ABSA 
练 数据 量 的 下 降 而 成 比例 变化 回合 数 。 为 了 确保 权重 下 降 因 子 在 训练 数据 集 上 相同 ， 我 们 会 

在 全 部 训练 集 上 使 用 规 沁 化 参数 为 A 三 5.0， 然 后 在 使 用 更 小 的 训练 集 的 时 候 成 比例 地 下 降 

A 值 。 


This and the next two graph are produced with the program more_data.py. 
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Accuracy (%) on the validation data 
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如 你 所 见 ， 分 类 准确 度 在 使 用 更 多 的 训练 数据 时 提升 了 很 大 。 根 据 这 个 趋势 的 话 ， 提 升 会 随 
着 更 多 的 数据 而 不 断 增 加 。 当 然 ， 在 训练 的 后 期 我 们 看 到 学 习 过 程 已 经 进入 了 饱和 状态 。 然 
而 ， 如 果 我 们 使 用 对 数 作 为 横 坐 标的 话 ， 可 以 重 画 此 图 如 下 : 


null 
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Accuracy (%) on the validation data 





10° 10° 10 
Training set size 


这 看 起 来 到 了 后 面 结束 的 地 方 ， 增 加 仍旧 明星。 这 表明 如 果 我 们 使 用 大 量 更 多 的 训练 数据 
不 妨 设 百 万 或 者 十 亿 级 的 手写 样本 一 一 那么 ， 我 们 可 能 会 得 到 更 好 的 性 能 ， 即 使 是 用 这 
样 的 简单 网 络 。 





获取 更 多 的 训练 样本 其 实 是 很 重要 的 想法 。 不 幸 的 是 ， 这 个 方法 代价 很 大 ， 在 实践 中 常常 是 
很 难 达 到 的 。 不 过 ， 还 有 一 种 方法 能 够 获得 类 似 的 效果 ， 那 就 是 进行 人 工 的 样本 扩展 。 假 设 
我 们 使 用 一 个 5 的 训练 样本 ， 
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将 其 进行 旋转 ， 比 如 说 15 : 
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这 还 是 会 被 设 别 为 同样 的 数字 的 。 但 是 在 像素 层级 这 和 任何 一 幅 在 MNIST 训练 数据 中 的 图 像 
都 不 相同 。 所 以 料 这 样 的 样本 加 入 到 训练 数据 中 是 很 可 能 帮助 我 们 学 习 有 关 手 写 数 字 更 多 知 
识 的 方法 。 而 且 ， 显 然 ， 我 们 不 会 融 只 对 这 贝 图 进行 人 工 的 改造 。 我 们 可 以 在 所 有 的 MNIST 
训练 样本 上 通过 和 多 小 的 旋转 扩展 训练 数据 ， 然 后 使 用 扩展 后 的 训练 数据 来 提升 我 们 网 络 的 


性 能 。 


这 个 想法 非常 强大 并 且 已 经 锐 广 发 应 用 了 。 让 我 们 看 看 一 些 在 MNIST 上 使 用 了 类 似 的 方法 进 
行 研究 成 果 。 其 中 一 种 他 们 考虑 的 网 络 结构 其 实 和 我 们 已 经 使 用 过 的 类 似 一 一 一 个 拥有 800 
个 隐藏 元 的 前 驱 神 经 网 络 ， 使 用 了 交叉 录 代 价 范 数 。 在 标准 的 MNIST 训练 数据 上 运行 这 个 网 
络 ， 得 到 了 98.4% 的 分 类 准确 度 ， 其 中 使 用 了 不 只 是 旋转 还 包括 转换 和 扭曲 。 通 过 在 这 个 扩 
展 后 的 数据 集 上 的 训练 ， 他 们 提升 到 了 98.9% 的 准确 度 。 然 后 还 在 “弹性 扭曲 (elastic 
distortion) “的 数据 上 进行 了 实验 ， 这 是 一 种 特殊 的 为 了 模仿 手 部 肌肉 的 随机 抖动 的 图 像 扭 曲 
方法 。 通 过 使 用 弹性 扭曲 扩展 的 数据 ， 他 们 最 终 达 到 了 99.3% 的 分 类 准确 度 。 他 们 通过 展示 
训练 效 据 的 所 有 类 型 的 变 体 来 扩展 了 网 络 的 经 验 。 


Best Practices for Convolutional Neural Networks Applied to Visual Document Analysis, 
by Patrice Simard, Dave Steinkraus, and John Platt (2003). 


这 个 想法 的 变 体 也 可 以 用 在 提升 手写 数字 识别 之 外 不 同学 习 任 务 上 的 性 能 。 一 般 就 是 通过 应 
用 反映 真实 世界 变化 的 操作 来 扩展 训练 数据 。 找 到 这 些 方法 其 实 并 不 困难 。 例 如 ， 你 要 构建 
一 个 神经 网 络 来 进行 语音 识别 。 我 们 人 类 其 至 可 以 在 有 背景 噪声 的 情况 下 识别 语音 。 所 以 你 
可 以 通过 增加 背景 噪声 来 扩展 你 的 训练 数据 。 我 们 同样 能 够 对 其 进行 加 速 和 减速 来 获得 相应 
的 扩展 数据 。 所 以 这 是 另外 的 一 些 扩 展 训练 数据 的 方法 。 这 些 技术 并 不 总 是 有 用 一 一 例如 ， 
其 实 与 其 在 数据 中 加 入 噪声 ， 倒 不 如 先 对 数据 进行 噪声 的 清理 ， 这 样 可 能 更 加 有 效 。 当 然 ， 
记 住 可 以 进行 数据 的 扩展 ， 寻 求 应 用 的 机 会 还 是 相当 有 价值 的 一 件 事 。 





练习 


e 正如 上 面 讨 论 的 那样 ， 一 种 扩展 MNIST 训练 数据 的 方式 是 用 一 些微 小 的 旋转 。 如 果 我 们 
允许 过 大 的 旋转 ， 则 会 出 现 什么 状况 呢 ? 


大 数据 的 劳 白 和 对 分 类 准确 度 的 影响 : 让 我 们 看 看 神经 网 络 准 确 度 随 着 训练 集 大 小 变化 的 情 
a: 
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100 Accuracy (%) on the validation data 
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Training set size 


假设 ， 我 们 使 用 别 的 什么 方法 来 进行 分 类 。 例 如 ， 我 们 使 用 SVM。 正 如 第 一 章 介绍 的 那样 ， 


不 要 担心 你 熟 不 熟悉 SVM， 我 们 不 进行 深入 的 讨论 。 下 面 是 SVM 模型 的 准确 度 随 着 训 练 数 
据 集 的 大 小 变化 的 情况 : 
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Training set size 


可 能 第 一 件 让 你 吃惊 的 是 神经 网 络 在 每 个 训练 规模 下 性 能 都 超过 了 SVM. 这 很 好 ， 尽 管 你 对 
细节 和 原理 可 能 不 太 了 解 ， 因 为 我 们 只 是 直接 从 scikit-learn 中 直接 调用 了 这 个 方法 ， 而 对 神 
经 网 络 已 经 深入 讲解 了 很 多 。 更 加 微妙 和 有 趣 的 现象 其 实 是 如 果 我 们 训练 SVM 使 用 50, 000 
幅 图 像 ， 实 际 上 SVM 已 经 能 够 超过 我 们 使 用 5, UUU 幅 图 像 的 准确 度 。 换 言 之 ， 更 多 的 训练 
数据 可 以 补偿 不 同 的 机 器 学 习 算 法 的 兰 距 。 


还 有 更 加 有 趣 的 现象 也 出 现 了 。 假 设 我 们 试看 用 两 种 机 器 学 习 算 法 去 解决 问题 ， 算 法 4 ME 
KBB, ANNIKA, SRA 在 一 个 训练 集合 上 超过 算法 BBB， 却 在 另 一 个 训练 集 上 弱 于 算法 
电 。 上 面 我 们 并 没有 看 到 这 个 情况 一 一 因为 这 要 求 两 幅 图 有 交叉 的 点 一 一 这 里 并 没有 。 对 "“ 算 
法 人 A 是 不 是 要 上 比 算法 B 好 ?" 正 确 的 反应 应 该 是 “你 在 使 用 什么 训练 集合 ?” 





在 进行 开发 时 或 者 在 读 研 究 论 文 时 ， 这 都 是 需要 记 住 的 事情 。 很 多 论文 聚焦 在 寻找 新 的 技术 
来 给 出 标准 数据 集 上 更 好 的 性 能 。“ 我 们 的 超 先 的 拉 术 在 标准 测试 集 上 给 出 了 百 分 之 六 的 
性 能 提升 。”" 这 是 通常 的 研究 声明 。 这 样 的 声明 通常 比较 有 趣 ， 不 过 也 必须 被 理解 为 仅仅 在 特 
定 的 训练 数据 机 上 的 应 用 效果 。 那 些 给 出 基准 数据 集 的 人 们 会 拥有 更 大 的 研究 经 费 文 持 ， 这 
样 能 够 获得 更 好 的 训练 数据 。 所 以 ， 很 可 能 他 们 由 于 超 先 的 技术 的 性 能 提升 其 实在 更 大 的 数 
据 集 合 上 就 素 失 了 了。 换言之 ， 人 们 标榜 的 提升 可 能 就 是 历史 的 偶然 。 所 以 需要 记 住 的 特别 是 
在 实际 应 用 中 ， 我 们 想 要 的 是 更 好 的 算法 和 更 好 的 训练 数据 。 寻 找 更 好 的 算法 很 重 ， 不 过 需 
要 确保 你 在 此 过 程 中 ， 没 有 放弃 对 更 多 更 好 的 数据 的 追求 。 


je] A 
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。 研究 问题 : 我 们 的 机 器 学 习 算法 在 非常 大 的 数据 集 上 如 何 进行 ? 对 任何 给 定 的 算法 ， 其 
实 去 定义 一 个 随 着 训练 数据 规模 变化 的 渐 近 的 性 能 是 一 种 很 自然 的 党 试 。 一 种 简单 粗暴 
的 方法 就 是 简单 地 进行 上 面 图 中 的 趋势 分 析 ， 然 后 将 图 像 推进 到 无 穷 大 。 而 对 此 想法 的 
反驳 是 曲线 本 身 会 给 出 不 同 的 渐 近 性 能 。 你 能 够 找到 拟 合 某 些 特定 类 别 曲线 的 理论 上 的 
验证 方法 吗 ? 如 果 可 以 ， 上 比较 不 同 的 机 器 学 习 算法 的 淅 近 性 能 。 


Bet : 我 们 现在 已 经 介绍 完了 过 匹配 和 规范 人 化。 当然， 我 们 重 回 这 个 问题 。 正 如 我 们 前 面 讲 


过 的 那样 ， 尤 其 是 计算 机 越 来 越 强 大 ， 我 们 有 训练 更 大 的 网 络 的 能 力 时 。 过 匹配 是 神经 网 络 
中 一 个 主要 的 问题 。 我 们 有 姐 切 的 愿望 来 开发 出 强大 的 规 泡 化 技术 来 减轻 过 匹配 ， 所 以 ， 这 


也 是 当前 研究 的 极其 热门 的 方 同 之 一 。 
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假设 你 是 一 名 工程 病 ， 接 到 一 项 从 头 开 始 设 计 计 算 机 的 任务 。 某 天 ， 你 在 工作 军工 作 ， 设 计 
逻辑 电路 ， 构 建 AND j, OR NET, Zi Em RAR: 客户 刚刚 添加 了 一 个 奇特 
的 设计 需求 : 整个 计算 机 的 线路 的 深度 必须 只 有 两 层 : 


External inputs 
(keyboard etc) 





First layer of circuit elements (AND, OR, not etc) 





Second layer of circuit elements 


External outputs 
(screen etc) 


你 惊 呆 了 ， 跟 老板 说 道 : XKR PIE!” 
老板 说 :“ 他 们 确实 疯 了 ， 但 是 客户 的 需求 比 天 大 ， 我 们 要 满足 它 。” 


实际 上 ， 在 某 种 程度 上 看 ， 他 们 的 客户 并 没有 太 疯 狂 。 假 设 你 可 以 使 用 贵重 特殊 的 逻辑 门 可 
以 AN DD 起 来 你 想 要 的 那么 多 的 输入 。 同 样 也 能 使 用 多 值 输 入 的 入 AND j] ALAND 
多 个 输入 然后 求 否 定 的 门 。 有 了 这 类 特殊 的 门 ， 构 建 出 来 的 两 层 的 深度 的 网 络 便 可 以 计算 任 
MEM, 但 是 仅仅 因为 某 件 事 是 理论 上 可 能 的 ， 就 代表 这 是 一 个 好 的 想法 。 在 实践 中 ， 在 解 
决 线路 设计 问题 (或 者 大 多 数 的 其 他 算法 问题 ) SY, RIS RUGRATS AM, ABS 
步 地 集成 这 些 子 问题 的 解 。 换 名 话说， 我 们 通过 多 层 的 抽象 来 获得 最 终 的 解答 。 例如 ， 我 们 
来 设计 一 个 逻辑 线路 来 做 两 个 数 的 乘法 。 我 们 希望 在 已 经 有 了 计算 两 个 数 加 法 的 子 线路 基础 
上 创建 这 个 逻辑 线路 。 计 算 两 个 效 和 的 子 线路 也 是 构建 在 用 语 两 个 比特 相 加 的 子 子 线路 上 
的 。 最 终 的 线路 就 长 成 这 个 样子 : 
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Inputs: x and y 


First layer, doing simple tasks, e.g. adding bits 


Integrated into more complex tasks, e.g. adding numbers 


Integrated into multiplication 





Output: x.y 


最 终 的 线路 包含 至 少 三 层 线路 的 单元 。 实 际 上 ， 这 个 线路 很 可 能 会 超过 三 屋 ， 因 为 我 们 可 以 
将 子 任务 分 解 成 比 上 述 更 小 的 单元 。 但 是 基本 思想 融 是 这 样 。 


因此 深度 线路 让 这 样 的 设计 过 程 变 得 更 加 简单 。 但 是 这 对 于 设计 本 丑 帮 助 并 不 大 。 其 实 ， 数 
学 证 明 对 于 菜 些 辑 数 设计 的 非常 浅 的 线路 可 能 需要 指数 级 的 线路 单元 来 计算 。 例 如 ， 在 1980 
年 代 早 期 的 一 系列 著名 的 论文 已 经 给 出 了 计算 比特 的 集合 的 奇偶 性 通过 浅 的 线路 来 计算 需要 
指数 级 的 门 。 另 一 当面 ， 如 果 你 使 用 更 深 的 线路 ， 那 么 可 以 使 用 规模 很 小 的 线路 来 计算 奇偶 
性 : 仅仅 需要 计算 比特 的 对 的 奇偶 性 ， 然 后 使 用 这 些 结果 来 计算 比特 对 的 对 的 奇偶 性 ， 以 此 
类 推 ， 构 建 出 总 共 的 育 侦 性 。 深 度 线路 这 样 束 能 从 本 质 上 获得 超过 浅 线 路 的 更 强 的 能 


到 现在 为 止 ， 本 书 讲 昼 经 网 络 看 作 是 疯狂 的 客户 。 几 乎 我 们 遇 到 的 所 有 的 网 络 束 只 包括 一 层 
Bese (另外 还 有 输入 输出 层 ) 
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这 些 简 单 的 网 络 已 经 非常 有 用 了 : 在 前 面 的 章节 中 ， 我 们 使 用 这 样 的 网 络 可 以 进行 准确 率 高 
iż 98% 的 手写 数字 的 识别 ! 而 且 ， 军 觉 上 看 ， 我 们 期 望 拥有 时 多 隐 含 层 的 神经 网 络 能 够 变 的 
喝 加 强大 : 
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hidden laver 1 hidden laver 2 hidden laver 3 
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这 样 的 网 络 可 以 使 用 中 间 层 构建 出 多 层 的 抽象 ， 正 如 我 们 在 布尔 线路 中 做 的 那样 。 例 如 ， 如 
果 我 们 在 进行 视觉 模式 识别 ， 那 么 在 第 一 层 的 神经 元 可 能 学 会 识别 边 ， 在 第 二 层 的 神经 元 可 
以 在 边 的 基础 上 学 会 识别 出 更 加 复杂 的 形状 ， 例 如 三 角形 或 者 矩 形 。 第 三 层 将 能 够 识别 更 加 
复杂 的 形状 。 依 此 类 推 。 这 些 多 层 的 抽象 看 起 来 能 够 赋予 深度 网 络 一 种 学 习 解 决 复杂 模式 识 
别 问题 的 能 力 。 然 后 ， 正 如 线路 的 示例 中 看 到 的 那样 ， 存 在 着 理论 上 的 研究 结果 告诉 我 们 深 
度 网 络 在 本 质 上 上 比 浅 层 网 络 更 加 强大 。 


对 某 些 问 题 和 网 络 结构 ，Razvan Pascanu, Guido Montúfar, and Yoshua Bengio 在 2014 
年 的 这 篇 文章 On the number of response regions of deep feed forward networks with 
piece-wise linear activations 给 出 了 证 明 。 更 加 详细 的 讨论 在 Yoshua Bengio 2009 年 的 者 
作 Learning deep architectures for Al 的 第 二 部 分 。 


那 我 们 如 何 训 练 这 样 的 深度 人 利 经 网 络 呢 ? 在 本 章 中 ， 我 们 党 斌 使 用 基于 BP 的 随机 梯度 下 降 的 
方法 来 训练 。 但 是 这 会 产生 问题 ， 因 为 我 们 的 深度 神经 网 络 并 不 能 比 浅 层 网 络 性 能 好 太 多 。 


这 个 失败 的 结果 好 像 与 上 面 的 讨论 相悖 。 这 束 能 让 我 们 退缩 么 ， 不 ， 我 们 要 深入 进去 试看 理 
解 使 得 深度 网 络 训练 困难 的 原因 。 仔 细 研 究 一 下 ， 融 会 发 现 ， 在 深度 网 络 中 ， 不 同 的 层 学 习 
的 速度 舌 异 很 大 。 尤 其 是 ， 在 网 络 中 后 面 的 层 学 习 的 情况 很 好 的 时 候 ， 先 前 的 层次 弟弟 会 在 
训练 时 集 灌 不 变 ， 基 本 上 学 不 到 东西 。 这 种 集 滞 并 不 是 因为 运气 不 好 。 而 是 ， 有 着 玩 加 根本 
的 原因 是 的 学 习 的 速度 下 降 了 ， 这 些 原 因 和 基于 梯度 的 学 习 技术 相关 。 


当 我 们 更 加 深入 地 理解 这 个 问题 时 ， 发 现 相 反 的 情形 同样 会 出 现 : 先前 的 层 可 能 学 习 的 比较 
好 ， 但 是 后 面 的 层 却 停滞 不 变 。 实 际 上 ， 我 们 发 现在 深度 俐 经 网 络 中 使 用 基于 梯度 下 降 的 学 
习 方 法 本 身 存在 着 内 在 不 稳定 性 。 这 种 不 稳定 性 使 得 先前 或 者 后 面 的 层 的 学 习 过 程 阻 灌 。 


这 个 的 确 是 坏 消 息 。 但 是 真正 理解 了 这 些 难 点 后 ， 我 们 融 能 够 获得 高 效 训练 深度 网 络 的 更 深 
洞察 力 。 而 且 这 些 发 现 也 是 下 一 草 的 准 各 知识， 我 们 到 时 会 介绍 如 何 使 用 深度 学 习 解 决 图 像 


识别 问题 。 
OBRAJSA, Mh) 消失 的 梯度 问题 
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那么 ， 在 我 们 训练 深度 网 络 时 究竟 哪里 出 了 问题 ? 


为 了 回答 这 个 问题 ， 让 我 们 重新 看 看 使 用 单一 隐藏 层 的 伸 经 网 络 示例 。 这 里 我 们 也 是 用 
MNIST 数字 分 类 问题 作为 研究 和 实验 的 对 象 。 


MNIST 问题 和 数据 在 (这 里 ) 和 (这 里 ) . 


这 里 你 也 可 以 在 自己 的 电脑 上 训练 神经 网 络 。 或 者 融 直 搂 读 下 去 。 如 果 希 雇 实 际 跟随 这 些 步 
骤 ， 那 就 需要 在 电脑 上 安装 python 2.7，numpy 和 代码 ， 可 以 通过 下 面 的 命令 复制 所 需要 的 
代码 


git clone https://github.com/mnielsen/neural-networks-and-deep-learning.git 


如 果 你 不 使 用 9， 那么 就 直接 从 这 里 (here) 下 载 数据 和 代码 。 然 后 需要 转 入 sre 子 目 录 。 


接着 从 python 的 shell ATLARA MNIST 数据 : 


>>> import mnist_loader 
>>> training data, validation_data, test data = A 
. mnist_loader.load_data wrapper() 


然后 设置 我 们 的 网 络 : 


>>> Import network2 
>>> net = network2.Network([784, 30, 10]) 


这 个 网 络 拥有 184 个 输入 层 伸 经 元 ， 对 应 于 输入 图 片 的 28=28= 784 MRR. RE 
隐藏 层 神经 元 为 30 个 ， 输 出 层 为 10 个 神经 元 ， 对 应 于 MNIST 数字 (0.1,...,9), 让 我 们 
训练 30 轮 ， 使 用 mini batch 大 小 为 10, 学 习 率 由 三 山上 ， 正 规 化 参数 入 三 5.0。 在 训练 

时 ， 我 们 也 会 在 验证 集 上 监控 分 类 的 准确 度 : 


>>> net.SGD(training_data, 30, 10, 0.1, lmbda=5.0, 
. evaluation_data=validation_data, monitor_evaluation_accuracy=True) 


最 终 我 们 得 到 了 分 类 的 准确 率 为 96.48 (也 可 能 不 同 ， 每 次 运行 实际 上 会 有 一 点 点 的 偏差 ) 
这 和 我 们 前 面 的 结果 相似 。 现在 ， 我 们 增加 另外 一 层 隐 基层 ， 同 样 地 是 30 个 俐 经 元 ， 试 看 
使 用 相同 的 超人 参数 进行 训练 : 


>>> net = network2.Network([784, 30, 30, 10]) 
>>> net.SGD(training_data, 30, 10, 0.1, lmbda=5.0, 
. evaluation_data=validation_data, monitor_evaluation_accuracy=True) 


RAERD A EMERITA, 96.90, ADALE : 一 点 点 的 深度 带 来 了 效果 。 那 么 
束 骨 增加 一 层 同 样 的 隐藏 层 : 
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>>> net = network2.Network([784, 30, 30, 30, 10]) 
>>> net.SGD(training_data, 30, 10, 0.1, lmbda=5.0, 
. evaluation_data=validation_data, monitor_evaluation_accuracy=True) 


哦 ， 这 里 并 没有 什么 提升 ， 反 而 下 降 到 了 96.579%， 这 和 与 最 初 的 浅 层 网 络 相差 无 几 。 再 增加 一 
EB: 


>>> net = network2.Network([784, 30, 30, 30, 30, 10]) 
>>> net.SGD(training_data, 30, 10, 0.1, lmbda=5.0, 
. evaluation_data=validation_data, monitor_evaluation_accuracy=True) 


3) RETA NIĘT, 96.53. BRERA Blt RB, BERLLAN R f5H ko 
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次 增加 上 ， 在 最 坏 的 情形 下 也 就 是 没有 影响 。 事 情 并 不 是 这 样子 的 。 


那么 ， 应 该 是 怎样 的 呢 ?假设 额外 的 隐藏 层 的 人 硼 能 够 在 原理 上 起 到 人 作用， 问题 是 我 们 的 学 习 
算法 没有 发 现 正确 地 权 值 和 偏差 。 那么 现在 就 要 好 好 看 看 学 习 算法 本 身 有 哪里 出 了 问题 ， 并 
搞 清 楚 如 何 改 进 了 。 


为 了 获得 一 些 关 于 这 个 问题 前 觉 上 的 洞察 ， 我 们 可 以 将 网 络 学 到 的 东西 进行 可 视 化 。 下 面 ， 

我 画 出 了 一 部 分 1784, 30,30, 10| 的 网 络 ， 也 就 是 包含 两 层 各 有 30 个 隐藏 神经 元 的 隐藏 层 。 
图 中 的 每 个 神经 元 有 一 个 条 形 统计 图 ， 表 示 这 个 神经 元 在 网 络 进行 学 习 时 改变 的 速度 。 更 大 
的 条 意味 着 更 快 的 速度 ， 而 小 的 条 则 表示 变化 缓慢 。 更 加 准确 地 说 ， 这 些 条 表示 了 每 个 神经 


元 上 的 而， 也 就 是 代价 丽 数 关于 神经 元 的 偏差 更 变 的 速率 。 回 硕 第 二 章 (Chapter 2) , Bin 
看 到 了 这 个 梯度 的 数值 不 仅仅 是 在 学 习 过 程 中 偏差 改变 的 速度 ， 而 且 也 控制 了 输入 到 神经 元 
权重 的 变量 速度 。 如 果 没 有 回想 起 这 些 细 节 也 不 要 担心 : 目前 要 记 住 的 就 是 这 些 条 表示 了 每 
个 神经 元 权重 和 偏差 在 神经 网 络 学 习 时 的 变化 速率 。 


为 了 让 图 里 简单 ， 我 只 展示 出 来 最 上 方 隐 藏 层 上 的 章 个 神经 元 。 这 里 忽略 了 输入 层 俐 经 元 ， 
因为 他 们 并 不 包含 需要 学 习 的 权重 或 者 偏 雪 。 同 样 输出 层 伸 经 元 也 忽略 了 ， 因 为 这 里 我 们 做 
的 是 层 层 之 间 的 比较 ， 所 以 比较 相同 数量 的 两 层 更 加 合理 足 。 在 网 络 初 始 化 后 立即 得 到 训练 
前 期 的 结果 如 下 : 


这 个 程序 给 出 了 计算 梯度 的 方法 generate_ gradient.py. 也 包含 了 其 他 一 些 在 本 章 后 面 提 
到 的 计算 方法 。 


null ww ai bbt. com DODODDDDD 





null 


hidden layer 1 hidden layer 2 


I 


a, j 

i Pi 
[本 

ee, r 

| || 

a 

z 
å 


该 网 络 是 随机 初始 化 的 ， 因 此 看 到 了 神经 元 学 习 的 速度 差异 其 实 很 大 。 而 且 ， 我 们 可 以 发 
现 ， 第 二 个 隐藏 层 上 的 条 基本 上 都 要 上 比 第 一 个 隐藏 层 上 的 条 要 大 。 所 以 ， 在 第 二 个 隐藏 层 的 
俐 经 元 将 学 习 得 更 加 快速 。 这 仅仅 是 一 个 巧合 么 ， 或 者 第 二 个 隐藏 层 的 神经 元 一 般 情 况 下 都 
要 比 第 一 个 隐藏 层 的 神经 元 学 习 得 更 快 ? 为 了 确定 我 们 的 猜测 ， 拥 有 一 种 全 局 的 方式 来 比较 
学 习 速 度 会 比较 有 效 。 我 们 这 里 将 梯度 表示 为 0; T 00/00, 在 第 1 层 的 第 了 个 神经 元 的 梯 
度 。 我 们 可 以 将 i 看 做 是 一 个 向 量 其 中 元 素 表 示 第 一 层 隐 藏 层 的 学 习 速 度 ， 虎 则 是 第 二 层 
隐藏 层 的 学 习 速 度 。 接 着 使 用 这 些 向 量 的 长 度 作为 全 局 衡量 这 些 隐藏 层 的 学 习 速 度 的 度量 。 
因此 ，||4 | PREBLE RE, mo | 就 代表 第 二 层 人 隐藏 层 学 习 速度 。 借助 这 
些 定义 ， 在 和 上 图 同样 的 配置 下 ，||# |= 0.07m 二 0.31， 所 以 这 就 确认 了 之 前 的 疑 
惑 : 在 第 二 层 隐 藏 层 的 神经 元 学 习 速 度 确实 比 第 一 层 要 快 。 








如 果 我 们 添加 更 多 的 隐藏 野 呢 ? 如 果 我 们 有 三 个 隐藏 县， 比如 说 在 一 个 |784, 30,30, 10| 的 
网 络 中 ， 那 么 对 应 的 学 习 速 度 就 是 0.012,0.060, 0.283。 这 里 前 面 的 隐藏 层 学 习 速 度 还 是 要 
低 于 最 后 的 隐藏 县。 假设 我 们 增加 另 一 个 包含 30 个 隐藏 神经 元 的 隐藏 层 。 那 么 ， 对 应 的 学 习 
速度 就 是 : 0.003,0.017,0.070, 0.285。 还 是 一 样 的 模式 : 前 面 的 层 学 习 速 度 低 于 后 面 的 
层 。 
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现在 我 们 已 经 看 到 了 训练 开始 时 的 学 习 速 度 ， 这 是 刚 骨 a a TEE 
随 铸 训练 的 推移 发 生 什 么 样 的 变化 呢 ? 让 我 们 看 看 只 有 两 个 隐藏 层 。 学 习 速 度 变 化 如 下 : 


10 


Speed of learning: 2 hidden layers 
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为 了 产生 这 些 结果 ， 我 在 1000 个 训练 图 像 上 进行 了 500 轮 batch 梯度 下 降 。 这 和 我 们 通常 
训练 方式 还 是 不 同 的 一 一 我 没有 使 用 minibatch, AlFHT 1000 个 训练 图 像 ， 而 不 是 全 部 
的 50,00U 幅 图 。 我 并 不 是 想 做 点 poc Psie oai 
随机 梯度 下 降 会 在 结果 中 带 来 更 多 的 噪声 〈 尽 管 在 平均 噪声 的 时 候 结果 很 相似 ) 。 使 用 我 已 
经 确定 的 参数 可 以 对 引 E a 如 图 所 示 ， 

两 层 在 开始 时 就 有 着 不 同 的 速度 。 然 后 两 层 的 学 习 速 度 在 触 底 前 迅速 下 落 。 在 最 后 ， 我 们 发 
现 第 一 层 的 学 习 速 度 变 得 比 第 二 层 更 慢 了 


那么 更 加 复杂 的 网 络 是 什么 情况 呢 ? 这 里 是 一 个 类 似 的 实验 ， 但 是 这 次 有 三 个 隐藏 层 人 
[784, 30, 30, 30, 10]) 
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107 Speed of learning: 3 hidden layers 
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同样 ， 前 面 的 隐藏 野 要 比 后 面 的 隐藏 屋 学 习 的 更 慢 。 最 后 一 个 实验 ， 就 是 增加 第 四 个 隐藏 导 
(L1784, 30, 30, 30, 30, 10|) ， 看 看 这 里 会 发 生 什么 : 


100 Speed of learning: 4 hidden layers 
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同 祥 的 情况 出 现 了 ， 前 面 的 隐藏 层 的 学 习 速 度 要 低 于 后 面 的 隐 减 层 。 这 里 ， 第 一 层 的 学 习 速 
度 和 最 后 一 层 要 差 了 两 个 数量 级 ， 也 就 是 比 第 四 层 慢 了 100 倍 。 难 怪我 们 之 前 在 训练 这 些 网 络 
AY att (SBE / XA | 


现在 我 们 已 经 有 了 一 项 重要 的 观察 结果 : EVERETT, TZ BP 的 
时 候 梯度 倾向 于 交 小 。 这 意味 看 在 前 面 的 隐藏 层 中 的 神经 元 学 习 速 度 要 慢 于 后 面 的 隐藏 层 。 
这 儿 我 们 只 在 一 个 网 络 中 发 现 了 这 个 现象 ， 其 实在 多 效 的 第 经 网 络 中 存在 看 更 加 根本 的 导致 
这 个 现象 出 现 的 原因 。 这 个 现象 也 被 称 作 是 消失 的 梯度 问题 (vanishing gradient 
problem) 。 


为 何 消失 的 梯度 问题 会 出 现 呢 ?我 们 可 以 通过 什么 方式 避 鲍 它 ? 还 有 在 训练 深度 俐 经 网 络 时 
如 何 义理 好 这 个 问题 ?实际 上 ， 这 个 问题 是 可 以 避免 的 ， 尽 管理 代 方 法 并 不 是 那么 有 效 ， 同 
样 会 产生 问题 一 一 在 前 面 的 层 中 的 梯度 会 变 得 非 遂 大 | 这 也 叫做 爆炸 的 梯度 问题 (exploding 
gradient problem) ， 这 也 没 比 消失 的 樟 度 问题 更 好 处 理 。 更 加 一 般 地 说 ， 在 深度 伸 经 网 络 中 
的 梯度 是 不 稳定 的 ， 在 前 面 的 层 中 或 会 消失 ， 或 会 爆炸 。 这 种 不 稳定 性 才 是 深度 神经 网 络 中 
基于 梯度 学 习 的 根本 问题 。 这 就 是 我 们 需要 理解 的 东西 ， 如 果 可 能 的 话 ， 采 取 合 理 的 步 又 措 
施 解 决 问题 。 





一 种 有 关 消 失 的 (不 稳定 的 ) 梯度 的 看 法 是 确定 这 是 否 确实 是 一 个 问题 。 此 刻 我 们 暂时 转换 
到 另 一 个 话题 ， 假 设 我 们 正 要 数值 优化 一 个 一 元 的 画 数 J/1E), WRAK I (©) By, wR 
道 不 是 一 个 好 消息 么 ? 是 不 是 意味 在 我 们 已 经 接近 极 值 点 了 ? 同样 的 方式 ， 在 深度 伸 经 网 络 
中 前 面 隐藏 层 的 小 的 梯度 是 不 是 表示 我 们 不 需要 对 权重 和 偏 舌 做 太 多 调整 了 ? 


当然 ， 实 际 情况 并 不 是 这 样 的 。 想 想 我 们 随机 初始 网 络 中 的 权重 和 偏差 。 在 面 对 任意 的 一 种 
任务 ， 单 单 使 用 随机 初始 的 值 束 能 够 获得 一 个 较 好 的 结果 是 太 天 真 了 。 具 体 讲 ， 看 看 MNIST 
问题 的 网 络 中 第 一 层 的 权重 。 随 机 初始 化 意味 着 第 一 层 丢失 了 输入 图 像 的 几乎 所 有 信息 。 即 
使 后 面 的 层 能 够 获得 充分 的 训练 ， 这 些 层 也 会 因为 没有 充分 的 信息 而 很 难 识 别 出 输 入 的 图 
像 。 因 此 ， 在 第 一 层 不 进行 学 习 的 党 试 是 不 可 能 的 。 如 果 我 们 接着 去 训练 深度 神经 网 络 ， 我 
们 需要 弄 清 楚 如 何 解 决 消失 的 梯度 问题 。 


什么 导致 了 消失 的 梯度 问题 ?也 融 是 企 深度 什 
经 网 络 中 的 所 谓 的 梯度 不 稳定 性 


为 了 弄 清 楚 为 何 会 出 现 消失 的 梯度 ， 来 看 看 一 个 极 简单 的 深度 伸 经 网 络 : 每 一 层 都 只 有 一 个 
单一 的 神经 元 。 下 图 就 是 有 三 层 隐藏 层 的 神经 网 络 : 


RZE, WW- 是 权重 ， 而 ,02,.…. 是 偏差 ，C 则 是 某 个 代价 函数 。 回 顾 一 下 ， 从 第 7 
个 神经 元 的 输出 2i = al), EA o 是 通常 的 sigmoid KK, M a Wi*a 1 tb, Bee 
经 元 的 带 权 输入 。 我 已 经 在 最 后 表示 出 了 代价 函数 C 来 强调 代价 是 网 络 输出 On BRR : 如 
果实 际 输出 越 接 近 目 标 输出 ， 那 么 代价 会 变 低 ; 相反 则 会 变 高 。 
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现在 我 们 要 来 研究 一 下 关联 于 第 一 个 隐藏 神经 元 梯度 OC VDpi 。 我 们 将 会 计算 出 DC /0b 的 
表达 式 ， 通 过 研究 表达 式 来 理解 消失 的 梯度 发 生 的 原因 。 


开始 就 简单 地 给 出 DC VDpi 的 表达 式 。 初 看 起 来 有 点 复杂 ， 但 是 其 结构 是 相当 简单 的 ， 我 一 
会 儿 会 解释 。 下 图 给 出 了 具体 的 表达 式 : 
= | = gazj] x We xa (to) X WS x T [za] x Wa x a (żą4) X at | 
śm > at 2 p 5 A | Fs 
| NU Ve ae ay ma 


表达 式 结构 如 下 : 对 每 个 神经 元 有 一 个 5 l) 项 ; 对 每 个 权重 有 一 个 U 项 ; 还 有 一 个 
OC /oas 项 ， 表 示 最 后 的 代价 函数 。 注 意 ， 我 已 经 将 表达 式 中 的 每 个 项 置 于 了 对 应 的 位 置 。 所 
以 网 络 本 身 束 是 表达 式 的 解读 。 


你 可 以 直接 认可 这 个 表达 式 ， 兰 接 跳 到 该 表达 式 如 何 天 联 于 小 时 的 梯度 问题 的 。 这 对 理解 没 
有 影响， 因为 实际 上 上 面 的 表达 式 只 是 前 面 对 于 BP 的 讨论 的 特例 。 但 是 也 包含 了 一 个 表达 式 
正确 的 解释 ， 所 以 去 看 看 那个 解释 也 是 很 有 趣 的 (也 可 能 更 有 启发 性 吧 ) 。 


假设 我 们 对 偏差 b 进行 了 微小 的 调整 生生 。 这 会 导致 网 络 中 剩 下 的 元 素 一 系列 的 变化 。 首 先 
会 对 第 一 个 降 藏 元 输出 产生 一 个 笠 ai 的 变化 。 这 样 就 会 导致 第 二 个 神经 元 的 带 权 输入 产生 
Azo 的 变化 。 从 第 二 个 神经 元 输出 随 之 发 生 Ags 的 变化 。 以 此 类 推 ， 最 终 会 对 代价 函数 产 
+ AC 的 变化 。 这 里 我 们 有 : 


ac, AC 


(ih Ab | 


这 表示 我 们 可 以 通过 仔细 追踪 每 一 步 的 影响 来 搞 清楚 OC db 的 表达 式 。 现在 我 们 看 看 Ab 
如 何 影响 第 一 个 神经 元 的 输出 a 的 。 我 位 有 @ = (21) = ell tw 十 并 )， 所 以 有 


def ity anth | 


Aa, = —— Ah = o'(z,) Ay 


Pb 


ola) 这 项 看 起 很 熟悉 : 其 实 是 我 们 上 面 关 于 0C/0h 的 表达 式 的 第 一 项 。 直 觉 上 看 ， 这 项 
将 偏差 的 改变 Ab 转化 成 了 输出 的 变化 Aor, Aa 随 之 又 影响 了 带 权 输入 

oo = es ei fizo 7 = Aa, = wo Aa, 

Azo 和 Aa, 的 表达 式 组 合 起 来 ， 我 们 可 以 看 到 偏差 © 中 的 改变 如 何 通过 网 络 传输 影响 到 
zw: Amo (24 w: Ab 


ac wyw ee 以 此 类 推 下 去 ， 
跟踪 传播 改变 的 路 径 就 可 以 完成 。 在 每 个 神经 元 ， 我 们 都 会 选择 一 个 人 (2i) 的 项 ， 然 后 在 每 
个 权重 我 们 选择 出 一 A AWA AM ton 
AT : 


AC == g (2 jwea' (zə Jas oils = — Ab; 


除 以 Ab, RNLI ETERA : 
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OC /0b, = o (zı waa" (ż2)...0' (z4 ) < 


E s E 


为 何 出 现 梯度 消失 : 现在 把 梯度 的 整个 表达 式 写 下 来 : 





OC / Ob; — T (21 ) tla a! (żo Jw a ( Za Jo (z4) fle 


: Ua 


a 


除了 最 后 一 项 ， 该 表达 式 是 一 系列 形 如 也 jz (żj) 的 乘积 。 为 了 理解 每 个 项 的 行为 ， 先 看 看 下 
面 的 sigmoid HAFAN wR : 


Derivative of sigmoid function 
0.25 | 


0.20 
0.15 
0.10 
0.05 


0.00 


该 导数 在 (0) = 1/4 时 达到 最 高 。 现 在 ， 如 果 我 们 使 用 标准 方法 来 初始 化 网 络 中 的 权重 ， 
那么 会 使 用 一 个 均值 为 0 标准 差 为 1 的 高 斯 分 布 。 因 此 所 有 的 权重 通常 会 满足 W|<1 4 
了 这 些 信息 ， 我 们 发 现 会 有 wie (3) < 1/4。 并 且 在 我 们 进行 了 所 有 这 些 项 的 乘积 时 ， 最 终 
结果 肯定 会 指数 级 下 降 : 项 越 多 ， 乘 积 的 下 降 的 越 快 。** 这 里 我 们 敏锐 地 嗅 到 了 消失 的 梯度 问 
题 的 合理 解释 。 


更 明白 一 点 ， 我 们 比较 一 下 9C db 和 一 个 更 后 面 一 些 的 偏差 的 梯度 ， 不 妨 设 为 OC/ Obs, 
当然 ， 我 们 还 没有 显 式 地 给 出 这 个 表达 式 ， 但 是 计算 的 方式 是 一 样 的 。 
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<5 < 
ac a. he ek + + OC 
Ape = O (21) Wed (22) W30 (23) W40 (24)— 
| Oa4 
— a 


| common terms 


a 下 
BC E rs, ,OC 
Oba 一 o (z3) W40 (a) ga, 





两 个 表示 式 有 很 多 相同 的 项 。 但 是 0C/0h 还 多 包含 了 两 个 项 。 由 于 这 些 项 都 是 < 1/4 By, 
所 以 OC /0bh as OC Ob: 的 1/16 或 者 更 小 。 这 其 实 就 是 消失 的 梯度 出 现 的 本 质 原 因 了 。 
当然 ， 这 里 并 非 严 格 的 关于 消失 的 梯度 微调 的 证 明 而 是 一 个 不 太 正式 的 论断 。 还 有 一 些 可 能 
的 产生 原因 了 。 特 别 地 ， 我 们 想 要 知道 权重 W 在 训练 中 是 否 会 增长 。 如 果 会 ， 项 jo hz) 
会 不 会 不 在 满足 之 前 WT (4) < 1/4 的 约束 。 事 实 上 ， 如 果 项 变 得 很 大 一 ”超过 1， 那 么 
我 们 将 不 再 遇 到 消失 的 梯度 问题 。 实 际 上 ， 这 时 候 梯度 会 在 我 们 BP 的 时 候 发 生 指数 级 地 增 
长 。 也 就 是 说 ， 我 们 遇 到 了 梯度 爆炸 的 问题 。 梯度 爆炸 问题 : 现在 看 看 梯度 爆炸 如 何 出 现 的 
把 。 这 里 的 例子 可 能 不 是 那么 自然 : 国定 网 络 中 的 参数 ， 来 确保 产生 爆炸 的 梯度 。 但 是 即使 
是 不 自然 ， 也 是 包含 了 确定 会 产生 爆炸 梯度 (而 非 假设 的 可 能 ) 的 特质 的 。 





共 两 个 步骤 : 首先 ， 我 们 将 网 络 的 权重 设置 得 很 大 ， 上 比如 W = Wo = w = Wy = 100。 然 
后 ， 我 们 选择 偏差 使 得 F (2i) 项 不 会 太 小 。 这 是 很 容易 实现 的 : 方法 就 是 选择 偏差 来 保证 每 
个 神经 元 的 带 权 输 入 是 27 = 9 Gzą sigma (ż;)= 1/4) 。 比 如 说 ， 我 们 希望 

2) = W 于 On 十 01。 我 们 只 要 把 负 三 一 100* an 即 可 。 我 们 使 用 同样 的 方法 来 获得 其 他 的 
偏差 。 这 样 我 们 可 以 发 现 所 有 的 项 Wi # 和 【和 3) 都 等 于 100 * 1/4 二 25。 最 终 ， 我 们 就 获得 
了 爆炸 的 梯度 。 


不 稳定 的 梯度 问题 : 根本 的 问题 其 实 并 非 是 消失 的 梯度 问题 或 者 爆炸 的 梯度 问题 ， 而 是 在 前 
面 的 层 上 的 梯度 是 来 自 后 面 的 层 上 项 的 乘积 。 当 存在 过 多 的 层次 时 ， 殊 出 现 了 内 在 本 质 上 的 
不 稳定 场景 。 唯 一 让 所 有 层 都 接近 相同 的 学 习 速 度 的 方式 是 所 有 这 些 项 的 乘积 都 能 得 到 一 种 
平衡 。 如 果 没 有 某 种 机 制 或 者 更 加 本 质 的 保证 来 达成 平衡 ， 那 网 络 就 很 容易 不 稳定 了 。 简 而 
让 之 ， 真 实 的 问题 融 是 第 经 网 络 受 限于 不 稳定 梯度 的 问题 。 所 以 ， 如 果 我 们 使 用 标准 的 基于 
梯度 的 学 习 算 法 ， 在 网 络 中 的 不 同 层 会 出 现 按 照 不 同学 习 速 度 学 习 的 情况 。 


练习 


。 在 我 们 对 于 消失 的 梯度 问题 讨论 中 ， 使 用 了 Io (2) < 1/4| 这 个 结论 。 假 设 我 们 使 用 一 
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个 不 同 的 激活 函数 ， 其 导数 值 是 非 弟 大 的 。 这 会 帮助 我 们 避免 不 稳定 梯度 的 问题 么 ? 


消失 的 梯度 问题 普通 存在 : 我 们 已 经 看 到 了 在 神经 网 络 的 前 面 的 层 中 梯度 可 能 会 消失 也 可 能 
会 爆炸 。 实 际 上 ， 在 使 用 sigmoid 神经 元 时 ， 梯 度 通常 会 消失 。 为 什么 ?再 看 看 表达 式 

jwe ( 引 。 为 了 避免 消失 的 梯度 问题 ， 我 们 需要 lwo (2)| >= 1。 你 可 能 会 认为 如 果 w 很 大 
的 时 候 很 容易 达成 。 但 是 这 上 比 看 起 来 还 是 困难 很 多 。 原 因 在 于 ，9 (2) 项 同样 依赖 于 we: 

5 (2) 二 (Ww 十 0)， 其 中 a 是 输入 的 激活 范 数 。 所 以 我 们 在 让 w 变 大 时 ， 需 要 同时 不 让 
o(wa+b) 变 小 。 这 将 是 很 大 的 限制 了 。 原 因 在 于 我 们 让 w 变 大 ， 也 会 使 得 wa+b 变 得 
非常 大 。 看 看 e 的 图 ， 这 会 让 我 们 走 到 er 的 两 层 ， 这 里 会 去 到 很 小 的 值 。 唯 一 避免 发 生 这 
个 情况 的 方式 是 ， 如 果 输 入 激活 函数 掉 入 相当 狭窄 的 范围 内 (这 个 量化 的 解释 在 下 面 第 一 个 
问题 中 进行 ) 。 有 时 候 ， 有 可 能 会 出 现 。 但 是 一 般 不 大 会 发 生 。 所 以 一 般 情 况 下 ， 会 遇 到 消 
失 的 梯度 。 








[e] A 





。 考虑 乘积 [wo (wa + b) ， 假 没有 |wo' (wa + b)| >= L 
o 这 种 情况 只 有 在 |W| >= 4 的 时 候 才 会 出 现 。 
o 假设 [wl >= 4， 考 虑 那些 满足 |me (wa +b) >= 1 的 输入 激活 a 集合。 证 明 : 





| 
满足 上 述 条 件 的 该 集合 能 够 充满 一 个 不 超过 ll 74 
间 。 

。 数 值 上 说 明 上 述 表 达 式 在 [W = 6.9 时 候 去 的 最 高 值 约 0.45。 所 以 即使 每 个 条 件 都 
满足 ， 我 们 仍然 有 一 个 狭窄 的 输入 激活 区 间 ， 这 样 来 避免 消失 的 梯度 问题 。 

e 女神 经 元 : 考虑 一 个 单一 输入 的 神经 元 ，z， 对 应 的 权重 W, ， 偏 差 bp， 输出 上 的 权重 w 
。 证 明 ， 通 过 合理 选择 权重 和 偏差 ， 我 们 可 以 确保 Wow +e +40) = © eh 

e E |0, 1 。 这 样 的 神经 元 可 用 来 作为 妇 元 斌 用， 输出 和 输入 相同 (成 比例 ) 。 提 示 : 可 
以 重 写 代 二 1/2 十 入， 可 以 假设 w: 很 小 ， 和 在 wi * AGAR Taylor 级 数 展开 。 


在 喝 加 复 杀 网 络 中 的 不 稳定 栅 度 


现在 已 经 研究 了 简单 的 网 络 ， 每 一 层 只 包含 一 个 神经 元 。 那 么 那些 每 层 包 含 很 多 第 经 元 的 更 
加 复 杀 的 深度 网 络 呢 ? 


1-4; || | 


\ 1) 
: 宽度 的 区 
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实际 上 ， 在 这 样 的 第 经 网 络 中 ， 同 样 的 情况 也 会 发 生 。 在 前 面 天 于 BP 的 章节 中 ， 我 们 看 到 了 
在 一 个 共 L EBIB BABE : 


G=zEjzjajw"" "Ele" wt E Vae 


F 
r 


这 里 E (r ) 是 一 个 对 角 和 矩阵 ， 每 个 元 素 是 对 第 层 的 带 权 输 入 T (2), mu 是 对 不 同 层 的 权 
值 矩阵 。 VC 是 对 每 个 输出 激活 的 偏 导 数 向 量 。 


这 是 更 加 复 条 的 表达 陈 。 不 过 ， 你 仔细 看 ， 本 质 上 的 形 陈 还 是 很 相似 的 。 主 要 是 包含 了 更 多 
的 形 如 (W) E (2) 的 对 (pair), ME, Eg = (2!) 在 对 角 线 上 的 值 挺 小 ， 不 会 超过 1/4, 
由 于 权 值 矩阵 w 不 是 太 大 ， 每 个 额外 的 项 (W) (e) 会 让 梯度 向 量 更 小 ， 导 致 梯度 消 
失 。 更 加 一 般 地 看 ， 在 乘积 中 大 量 的 项 会 导致 不 稳定 的 梯度 ， 和 前 面 的 例子 一 样 。 实 践 中 ， 
一 般 会 发 现在 sigmoid 网 络 中 前 面 的 层 的 梯度 指数 级 地 消失 。 所 以 在 这 些 层 上 的 学 习 速 度 就 
会 变 得 很 慢 了 。 这 种 减速 不 是 偶然 现象 : 也 是 我 们 采用 的 训练 的 方法 决定 的 。 


深度 学 习 其 他 的 障 伺 


本 章 我 们 已 经 聚焦 在 消失 的 梯度 上 上， 并且 更 加 一 般 地 ， 不 稳定 梯度 一 一 深度 学 习 的 一 大 障 

碍 。 实 际 上 ， 不 稳定 梯度 仅仅 是 深度 学 习 的 众多 障碍 之 一 ， 尽 管 这 一 点 是 相当 根本 的 。 当 前 
的 研究 集中 在 更 好 地 理解 在 训练 深度 伸 经 网 络 时 遇 到 的 挑战 。 这 里 我 不 会 给 出 一 个 详尽 的 总 
结 ， 仅 仅 想 要 给 出 一 些 论文 ， 告 诉 你 人 们 正在 寻 员 探究 的 问题 。 





首先 ， 在 2010 年 Glorot 和 Bengio 发 现 证 据 表明 sigmoid 函数 的 选择 会 导致 训练 网 络 的 问 

题 。 特 别 地 ， 他 们 发 现 sigmoid 酌 数 会 导致 最 终 层 上 的 激活 函数 在 训练 中 会 聚集 在 和， 这 也 导 
致 了 学 习 的 缓慢 。 他 们 的 工作 中 提出 了 一 些 取代 sigmoid 函数 的 激活 函数 选择 ， 使 得 不 会 被 
这 种 聚集 性 影响 性 能 。 

第 二 个 例子 ， 在 2013 年 Sutskever Martens, Dahl 和 Hinton 研究 了 深度 学 习 使 用 随机 权重 
初始 化 和 基于 momentum 的 SGD 方法 。 两 种 情形 下 ， 好 的 选择 可 以 获得 较 大 的 短 异 的 训 
练 效果 。 这 些 例子 告诉 我 们 , “什么 让 训练 深度 网 络 非 常 困难 "这 个 问题 相当 复杂 。 本 章 ， 我 
们 已 经 集中 于 深度 神经 网 络 中 基于 梯度 的 学 习 方 法 的 不 稳定 性 。 结 果 表 明了 激活 函数 的 选 
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择 ， 权 重 的 初始 化 ， 其 至 是 学 习 算 法 的 实现 方式 也 扮演 了 重要 的 角色 。 当 然 ， 网 络 结构 和 其 
他 超 参 数 本 喘 也 是 很 重要 的 。 因 此 ， 太 多 因子 影响 了 训练 者 经 网 络 的 难度 ， 理 解 所 有 这 些 因 
子 仍然 是 当前 研究 的 重点 。 尽 管 这 看 起 来 有 点 莫 观 ， 但 是 在 下 一 章 中 我 们 会 介绍 一 些 好 的 消 
轧 ， 给 出 一 些 方法 来 一 定 程度 上 解决 和 和 寺 回 所 有 这 些 困 难 。 


null ww ai bbt. com DODODDDDD 





null 


在 上 一 章 ， 我 们 学 习 了 深度 俐 经 网 络 通 党 比 浅 层 俐 经 网 络 更 加 难以 训练 。 我 们 有 理由 相信 ， 
各 是 可 以 训练 深度 网 络 ， 则 能 够 获得 比 浅 层 网 络 更 加 强大 的 能 力 ， 但 是 现实 很 残酷 。 从 上 一 
章 我 们 可 以 看 到 很 多 不 利 的 消息 ， 但 是 这 些 困 难 不 能 阻止 我 们 使 用 深度 神经 网 络 。 本 章 ， 我 
们 将 给 出 可 以 用 来 训练 深度 神经 网 络 的 技术 ， 并 在 实战 中 应 用 它们 。 同 样 我 们 也 会 从 更 加 广 
阔 的 视角 来 看 神经 网 络 ， 简 要 地 回顾 近期 有 天 深度 人 神经 网 络 在 图 像 识 别 、 语 音 识 别 和 其 他 应 
用 中 的 研究 进展 。 然 后 ， 还 会 给 出 一 些 关 于 未 来 神经 网 络 又 或 人 工 镶 能 的 简短 的 推测 性 的 看 
法 > 


这 一 章 比较 长 。 为 了 更 好 地 让 你 们 学 习 ， 我 们 先 粗 看 一 下 整体 安排 。 本 章 的 小 结 之 间 关 联 并 


不 太 紧 密 ， 所 以 如 果 读 者 丈 悉 基本 的 第 经 网 络 的 知识 ， 那 么 可 以 任意 跳 到 目 己 最 感 兴 趣 的 部 
分 。 


本 章 主 要 的 部 分 是 对 最 为 流行 神经 网 络 之 一 的 深度 耸 积 网 络 的 介绍 。 我 们 将 细致 地 分 析 一 个 
使 用 耸 积 网 络 来 解决 MNIST 数据 集 的 手写 数字 识别 的 例子 (包含 了 代码 和 讲解 ) 





我 们 将 从 浅野 的 伸 经 网 络 开 始 来 解决 上 面 的 问题 。 通 过 多 次 的 迭代， 我 们 会 构建 越 来 越 强大 
的 网 络 。 在 这 个 过 程 中 ， 也 将 要 探究 若干 强大 技术 : 耸 积 、pooling、 使 用 GPU 来 更 好 地 训 

练 、 训 练 数 据 的 算法 性 扩展 (避免 过 匹配 ) 、dropout 技术 的 使 用 (同样 为 了 防止 过 匹配 现 

象 ) 、 网 络 的 ensemble 使 用 和 其 他 技术 。 最 终 的 结果 能 够 接近 人 类 的 表现 。 在 10,000 幅 
MNIST 测试 图 像 上 一 一 模型 从 未 在 训练 中 接触 的 图 像 该 系统 最 终 能 够 将 其 中 9,967 [im 
正确 分 类 。 这 儿 我 们 看 看 错 分 的 33 幅 图 像 。 注 意 正确 分 类 是 右上 的 标记 ; 系统 产生 的 分 类 在 
AR: 
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可 以 发 现 ， 这 里 面 的 图 像 对 于 正常 人 类 来 说 都 是 非常 困难 区 分 的 。 例 如 ， 在 第 一 行 的 第 三 幅 
图 。 我 看 的 话 ， 看 起 来 更 像 是 “9” 而 非 “8”， 而 “8” 却 是 给 出 的 真实 的 结果 。 我 们 的 网 络 同样 
能 够 确定 这 个 是 “9"”。 这 种 类 型 的 "错误 ”最 起 码 是 容易 理解 的 ， 可 能 甚至 值得 我 们 赞许 。 最 后 
用 对 最 近 使 用 深度 (54) 神经 网 络 在 图 像 识 别 上 的 研究 进展 作为 关于 图 像 识别 的 讨论 的 总 
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本 章 剩 下 的 部 分 ， 我 们 将 会 从 一 个 更 加 宽泛 和 宏观 的 角度 来 讨论 深度 学 习 。 概 述 一 些 神 经 网 
络 的 其 他 模型 ， 例 如 RNN 和 LSTM 网 络 ， 以 及 这 些 网 络 如 何在 语音 识别 、 目 然 语 言 处 理 和 
其 他 领域 中 应 用 的 。 最 后 会 试 着 推测 一 下 ， 和 神经 网 络 和 深度 学 习 未 来 发 展 的 方向 ， 会 从 
intention-driven user interfaces 谈 谈 深度 学 习 在 人 工 贸 能 的 角色 。 这 章 内 容 建立 在 本 书 前 面 
章节 的 基础 之 上 ， 使 用 了 前 面 介 绍 的 诸如 BP、 规 范 化 、softmax WR, SS. AM, BMY 
读 这 一 章 ， 倒 是 不 需要 太 过 细致 地 掌握 前 面 章 节 中 内 容 的 所 有 的 细节 。 当 然 读 完 第 一 章 关 于 
神经 网 络 的 基础 是 非常 有 帮助 的 。 本 章 提 到 第 二 章 到 第 五 章 的 概念 时 ， 也 会 在 文中 给 出 链接 
供 读 者 去 查看 这 些 必需 的 概念 。 


需要 注意 的 一 点 是 ， 本 章 所 没有 包含 的 那 一 部 分 。 这 一 章 并 不 是 关于 最 新 和 最 强大 的 神经 网 
络 库 。 我 们 也 不 是 想 训练 数 十 层 的 神经 网 络 来 处 理 最 前 治 的 问题 。 而 是 希望 能 够 让 读者 理解 
深度 神经 网 络 背 后 核心 的 原理 ， 并 料 这 些 原 理 用 在 一 个 MNIST 问题 的 解决 中 ， 方 便 我 们 的 理 
解 。 换 句 话说 ， 本 章 目 标 不 是 将 最 前 治 的 神经 网 络 展示 给 你 看 。 包 括 前 面 的 章节 ， 我 们 都 是 
聚焦 在 基础 上 ， 这 样 读者 束 能 够 做 好 充分 的 准 各 来 掌握 众多 的 不 断 涌现 的 深度 学 习 领 域 最 新 
工作 。 本 章 仍然 在 Beta 版 。 期 望 读 者 指出 笔 误 ，bug， 小 错 和 主要 的 误解 。 如 果 你 发 现 了 可 
疑 的 地 方 ， 请 直接 联系 mn@michaelnielsen.org。 


和 谷 积 网 络 简介 
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在 前 面 的 章节 中 ， 我 们 教会 了 神经 网 络 能 够 较 好 地 识别 手写 数字 : 


Ou / 


我 们 在 深度 神经 网 络 中 使 用 全 连接 的 邻接 关系 。 网 络 中 的 神经 元 与 相 令 的 层 上 的 所 有 和 神经 元 
PAE FR : 
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特别 地 ， 对 输入 图 像 中 的 每 个 像素 点 ， 我 们 将 其 光 强 度 作为 对 应 输入 层 神 经 元 的 输入 。 对 于 
28 x 28 像素 的 图 像 ， 这 意味 着 我 们 输入 神经 元 需要 有 A= 28 x 28) 4, 


实践 中 的 谷 积 伸 经 网 络 
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我 们 现 已 看 到 郑 积 利 经 网 络 中 核心 思想 。 现 在 我 们 融 来 看 看 如 何在 实践 中 使 用 耸 积 伸 经 网 
络 ， 通 过 实现 某 些 疮 积 网 络 ， 应 用 在 MNIST 数字 分 类 问题 上 上。 我 们 使 用 的 程序 是 
network3.py ， 这 是 network.py 和 network2.py 的 改进 版 本 。 代 码 可 以 在 GitHupb 下 载 。 注 意 
我 们 会 在 下 一 节 详 细 研 究 一 下 代码 。 本 节 ， 我 们 前 接 使 用 network3.py 来 构建 众 积 网 络 。 


network.py 和 network2.py 是 使 用 python 和 和 矩阵 库 numpy 实现 的 。 这 些 程序 从 最 初 的 理论 
开始 ， 并 实现 了 BP、 随 机 梯度 下 降 等 掖 术 。 我 们 既然 已 经 知道 原理 ， 对 network3.py, il 
现在 就 使 用 Theano 来 构建 神经 网 络 。 使 用 Thean 可 以 更 方便 地 实现 肉 积 网 络 的 BP， 因 为 
它 会 自动 计算 所 有 包含 的 映射 。Theano 也 会 比 我 们 之 前 的 代码 (B26, 218) 运行 得 
快 得 多 ， 这 会 更 适合 训练 更 加 复杂 的 佛经 网 络 。 特 别 的 一 点 ，Theano x CPU 和 GPU， 我 
们 写 出 来 的 Theano 代码 可 以 运行 在 GPU 上。 这 会 大 幅度 提升 学 习 的 速度 ， 这 样 束 算是 很 复 
条 的 网 络 也 是 可 以 用 在 实际 的 场景 中 的 。 


如 果 你 要 继续 跟 下 去 ， 融 需要 安装 Theano。 跟 随 这 些 参 考 MFILLŻZ= Theano 了 。 后面 的 例 
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子 在 Theano 0.6 上 运行 。 有 些 是 在 Mac OS X Yosemite, 3&4 GPU。 有 些 是 在 Ubuntu 
14.4 上 ， 有 NVIDIA GPU。 还 有 一 些 在 两 种 情况 都 有 运行 。 为 了 让 network3.py 运行 ， 你 需 
要 在 network3.py 的 源码 中 将 cpu IE% True 或 者 False。 除 此 之 外 ， 让 Theano 在 GPU 上 
运行 ， 你 可 能 要 参考 the instructions here。 网 络 上 还 有 很 多 的 教程 ， 用 Google 很 容易 找 
到 。 如 果 没 有 GPU， 也 可 以 使 用 Amazon Web Services EC2 G2 spot instances。 注 意 即 使 
是 GPU， 训练 也 可 能 花费 很 多 O 在 CPU E, 
则 可 能 需要 好 多 天 才能 运行 完 最 复杂 的 实验 。 正 如 在 前 面 章节 中 提 到 的 那样 ， 我 建议 你 搭建 
环境 ， 然 后 阅读 ， 偶 和 尔 回头 SiE, 如 果 你 使 用 CPU， 可 能 要 降低 训练 的 次 数 ， 
甚至 跳 过 这 些 实验 。 


为 了 获得 一 个 基准 ， 我 们 将 启用 一 个 浅野 的 以 构 ， 仅 仅 使 用 单一 的 隐藏 层 ， 包 含 100 DIA 
元 。 训 练 60 次 ， 使 用 学 习 率 为 路 三山 工 ，mini-batch 大 小 为 10， 无 规范 化 。Let's go: 


>>> import network3 

>>> from network3 import Network 

>>> from network3 import ConvPoolLayer, FullyConnectedLayer, SoftmaxLayer 

>>> training_data, validation_data, test _data = network3.load_data_shared( ) 

>>> mini _batch_size = 10 

>>> net = Network([ FullyConnectedLayer(n_in=/84, n_out=100), SoftmaxLayer(n_in=100, n_ou 
>>> net.SGD(training_data, 60, mini batch _size, 0.1, validation data, test_data) 
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network2.py ， 尽 管 细节 有 差异 ， 因 为 我 们 使 用 了 Theano, uae a 
FullyConnectedLayer 类 ， 这 类 似 于 我 们 之 前 讨论 的 那些 神经 网 络 层 。 下 面 是 代码 


class FullyConnectedLayer (object): 


def _ init (self, n_in, n out, activation_fn=sigmoid, p_dropout=0.0): 
self.n_in = n_in 
self.n_out = n_out 
self.activation_fn = activation_fn 
self. p- TE = EPP 


self.w = theano. E 
np.asarray( 
np.random.normal( 
loc=0.0, scale=np.sqrt(1.0/n_out), size=(n_in, n_out)), 
dtype=theano.config.floatx), 
name='w', borrow=True) 
self.b = theano.shared( 
np.asarray(np.random.normal(loc=0.0, scale=1.0, size=(n_out, )), 
dtype=theano.config.floatx), 
name='b', borrow=True) 
self.params = [self.w, self.b] 


def set (self, inpt, inpt_dropout, mini_batch_size): 


ww ai bbt. com TOUOOT0O0 0 





null 


null 


self.inpt = inpt.reshape((mini_batch_size, self.n_in)) 
self.output = self.activation_fn( 
(1-self.p_dropout)*T.dot(self.inpt, self.w) + self.b) 
self.y_ out = T.argmax(self.output, axis=1) 
self.inpt_dropout = dropout_layer( 
inpt_dropout.reshape((mini_ batch _size, self.n_in)), self.p_dropout ) 
self.output _dropout = self.activation_fn( 
T.dot(self.inpt_dropout, self.w) + self.b) 


def accuracy(self, y): 
"Return the accuracy for the mini-batch." 
return T.mean(T.eq(y, self.y_out) ) 


int 方法 中 的 大 部 分 都 是 可 以 和 目 解 释 的 ， = 全 出 一 些 解释 。 我 们 根据 正 态 分 布 随机 
初始 化 了 权重 和 偏差 。 代 码 中 对 应 这 个 操作 的 一 行 看 起 来 可 能 很 吓人 ， 但 其 实 只 在 进行 载 人 
权重 和 偏差 到 Thean 中 所 谓 的 共享 变量 中 。 Rika ete 些 变量 可 在 GPU 中 进行 义理。 
对 此 不 做 过 深 的 解释 。 如 果 感 兴趣 ， pool documentation。 而 这 种 初始 化 的 方式 
也 是 专门 为 sigmoid 激活 函数 设计 的 〈 参 见 这 里 ) 。 理 想 的 情况 是 ， 我 们 初始 化 权重 和 偏差 
时 会 根据 不 同 的 激活 函数 (如 tanh 和 Rectified Linear Function) 进行 调整 。 这 个 在 下 面 的 问 
题 中 会 进行 讨论 。 初 始 方 法 _ init LA self.params = [self.w, self.b] «ak 这 样 料 该 层 
所 有 需要 学 习 的 参数 都 为 在 一 起 。 后 面 ， Network.s6p 方法 会 使 用 params 属性 来 确定 网 络 实 
例 中 什么 变量 可 以 学 习 。 


set_inpt 方法 用 来 设置 该 层 的 输入 ， 并 计算 相应 的 输出 。 我 使 用 int 而 非 input 因为 在 
python 中 input 是 一 个 内 置 函 数 。 如 果 将 两 者 混淆 ， 必 然 会 导致 不 可 预测 的 行为 ， 对 出 现 的 
问题 也 难以 定位 。 注 意 我 们 实际 上 用 两 种 方式 设置 输入 的 : self.input 和 
self.inpt_dropout 。 因 为 训练 时 我 们 可 能 要 使 用 dropout。 如 果 使 用 dropout, 就 需要 设置 对 
应 丢弃 的 概率 self.p_dropout o IX REE set_inpt 方法 的 到 数 第 二 行 dropout_layer 做 的 
事 。 所 以 self.inpt_dropout 和 self.output_dropout 在 训练 过 程 中 使 用 ， 而 self.inpt 和 
self.output 用 作 其 他 任务 ， 比 如 衡量 验证 集 和 测试 集 模 型 的 准确 度 。 


ConvPoolLayer 和 SoftmaxLayer 类 定义 和 FullyconnectedLayer 定义 差不多 。 所 以 我 这 儿 不 
会 给 出 代码 。 如 果 你 感 兴 趣 ， 可 以 参考 本 节 后 面 的 network3. py 的 代码 。 


尽管 这 样 ， 我 们 还 是 指出 一 些 重 要 的 微弱 的 细节 差别 。 明 显 一 点 的 是 ， 在 ConvPoolLayer 和 
SoftmaxLayer 中 ， 我 们 采用 了 相应 的 合适 的 计算 输出 激活 值 方 式 。 季 运 的 是 ，Theano 提供 了 
内 置 的 操作 让 我 们 计算 肉 积 、max-pooling 和 softmax HX. 


不 大 明显 的 ， 在 我 们 引入 softmax layer 时 ， 我 们 没有 讨论 如 何 初 始 化 权重 和 偏差 。 其 他 地 方 

我 们 已 经 讨论 过 对 sigmoid 层 ， 我 们 应 当 使 用 合适 参数 的 正 态 分 布 来 初始 化 权重 。 但 是 这 个 

启发 式 的 论断 是 针对 sigmoid #42 504 (做 一 bn 对 元 上 ) 。 但 是 ， 并 没 

有 特殊 的 原因 说 这 个 论断 可 以 用 在 softmax 层 上 。 所 以 没有 一 个 先 验 的 理由 应 用 这 样 的 初始 

人 化。 与 其 使 用 之 前 的 方法 初始 化 ， 我 这 里 会 料 所 有 权 值 和 偏差 设置 为 人 。 这 是 一 个 ad hoc 的 
过 程 ， 但 在 实践 使 用 过 程 中 效果 倒是 很 不 错 。 


好 了 ， 我 们 已 经 看 过 了 所 有 关于 层 的 类 。 那 么 Network 类 是 怎样 的 呢 ? 让 我 们 看 看 _ init _ 
方法 : 
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class Network(object): 


def init__(self, layers, mini _batch_size): 
"uuTakes a list of ‘layers’, describing the network architecture, and 
a value for the mini batch size to be used during training 
by stochastic gradient descent. 


self.layers = layers 
self.mini batch_size = mini batch_size 
self.params = [param for layer in self.layers for param in layer.params] 
self.x = T.matrix("x") 
self.y = T.ivector("y") 
init_layer = self.layers[0] 
init_layer.set_inpt(self.x, self.x, self.mini_batch_size) 
for ] in xrange(i, len(self.layers)): 
prev_layer, layer = self.layers[j-i], self.layers[j] 
layer.set_inpt( 
prev_layer.output, prev _layer.output_dropout, self.mini batch_size) 
self.output = self.layers[-1]|.output 
self.output _dropout = self.layers[-1].output_dropout 


这 段 代 码 大 部 分 是 可 以 目 解 释 的 。 self.params = [param for layer in ...] 此 行 代码 对 每 层 

的 参数 捆绑 到 一 个 列表 中 。 Network.sco 方法 会 使 用 self.params 来 确定 Network 中 哪些 变 
量 需 要 学 习 。 而 self.x = T.matrix("x") 和 self.y = T.ivector("y") 则 定义 了 Theano 符号 
变量 x 和 y。 这 些 会 用 来 表示 输入 和 网 络 得 到 的 输出 。 


这 儿 不 是 Theano 的 拖 程 ， 所 以 不 会 深度 讨论 这 些 变 量 指 代 什么 东西 。 但 是 粗略 的 想法 就 是 
这 些 代 表 了 数学 变量 ， 而 非 显 式 的 值 。 我 们 可 以 对 这 些 变 量 做 通常 需要 的 操作 : 加 减 乘除 ， 
(FRR SS. KOE, Thean 提供 了 很 多 对 符号 变量 进行 操作 方法 ， 如 人 答 积 、max- 
pooling 等 等 。 但 是 最 重要 的 是 能 够 进行 快速 符号 微分 运算 ， 使 用 BP 算法 一 种 通用 的 形式 。 
这 对 于 应 用 随机 梯度 下 降 在 奋 干 种 网 络 结构 的 变 体 上 特别 有 效 。 特 别 低 ， 接 下 来 几 行 代码 定 
义 了 网 络 的 符号 输出 。 我 们 通过 下 面 这 行 


init_layer.set_inpt(self.x, self.x, self.mini_batch_size) 


设置 切 始 层 的 输入 。 


请 注意 输入 是 以 每 次 一 个 mini-batch 的 方式 进行 的 ， 这 惑 是 mini-batch size 为 何 要 指定 的 原 
因 。 还 需要 注意 的 是 ， 我 们 将 输入 self.x 传 了 两 次 : 这 是 因为 我 们 我 们 可 能 会 以 两 种 方式 
(有 dropout 和 无 dropout) 使 用 网 络 。 for 循环 将 符号 变量 self.x 通过 Network 的 层 进行 
前 向 传播 。 这 样 我 们 可 以 定义 最 终 的 输出 output 和 output_dropout 属性 ， 这 些 都 是 


Network 符号 式 输 出 。 


现在 我 们 理解 了 Network 是 如 何 初 始 化 了 ， 让 我 们 看 看 它 如 何 使 用 seb 方法 进行 训练 的 。 代 
码 看 起 来 很 长 ， 但 是 它 的 结构 实际 上 相当 简单 。 代 码 后 面 也 有 一 些 注 解 。 


def SGD(self, training _ data, epochs, mini _batch_size, eta, 
validation_data, test _data, lmbda=0.0): 
"""Train the network using mini-batch stochastic gradient descent.""" 
training_x, training_y = training_data 
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validation_x, validation_y = validation_data 
test_x, test_y = test data 


num_training _batches = size(training_data)/mini_batch_size 
num _validation_batches = size(validation_data)/mini_batch_size 
num_test_batches = size(test_data)/mini_batch_size 


12 norm_squared = sum([(layer.w**2).sum() for layer in self.layers] ) 
cost = self.layers[-1].cost(self)+\ 
0.5*lmbda*12_norm_squared/num_training_batches 
grads = T.grad(cost, self.params) 
updates = [(param, param-eta*grad) 
for param, grad in zip(self.params, grads) ] 


1 = T.lscalar() # | e 
train mb = theano.function( 
[i], cost, updates=updates, 
givens={ 
self .x: 
training_x[i*self.mini_batch_size: (1it+1)*self.mini_batch_size], 
self.y: 
training_y[i*self.mini_batch_size: (1it+1)*self.mini_batch_size] 
+) 
validate_mb_accuracy = theano.function( 
[i], self.layers[-1].accuracy(self.y), 
givens={ 
self .x: 
validation_x[i*self.mini_batch_size: (1i+1)*self.mini_batch_size], 
self.y: 
validation_y[i*self.mini_batch_size: (1+1)*self.mini batch_size|] 
+) 
test _mb_accuracy = theano.function( 
[i], self.layers[-1].accuracy(self.y), 
givens={ 
self.x: 
test_x[i*self.mini_batch_size: (1it+1)*self.mini_batch_size], 
self.y: 
test_y[i*self.mini_batch_size: (1i+1)*self.mini_batch_size] 
+) 
self.test_mb_predictions = theano.function( 
[i], self.layers[-1].y_out, 
givens={ 
self .x: 
test_x[i*self.mini_batch_size: (1i+1)*self.mini_batch_size] 


+) 


best_validation_accuracy = 0.0 
for epoch in xrange(epochs): 
for minibatch_index in xrange(num_training_batches): 
iteration = num _training_batches*epoch+minibatch_index 
if iteration % 1000 == 
print( "Training mini-batch number {0}".format(iteration) ) 
cost_ij = train_mb(minibatch_index ) 
if (iteration+1) % num_training_batches == 
validation_accuracy = np.mean( 
[validate_mb_accuracy(j) for j in xrange(num_validation_batches ) | 
print("Epoch {0}: validation accuracy {1:.2%}".format( 
epoch, validation_accuracy) ) 
if validation_accuracy >= best_validation_accuracy: 
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print("This is the best validation accuracy to date.") 
best_validation_accuracy = validation_accuracy 
best_iteration = iteration 
if test_data: 
test_accuracy = np.mean( 
[test_mb_accuracy(j) for j in xrange(num_test_batches) | ) 
print('The corresponding test accuracy is {0:.2%}'.format( 
test_accuracy) ) 
print( "Finished training network." ) 
print("Best validation accuracy of {0:.2%} obtained at iteration {1}".format( 
best_validation_accuracy, best_iteration) ) 
print("Corresponding test accuracy of {0:.2%}".format(test_accuracy) ) 


有 前面 几 行 很 直接 ， 将 数据 集 分 解 成 x 和 y 两 部 分 ， 并 计算 在 每 个 数据 集中 mini-batch 的 数 
量 。 接 下 来 的 几 行 更 加 有 意思 ， 这 也 体现 了 Theano 有 趣 的 特性 。 那 么 我 们 就 摘录 详解 一 
BR: 


# define the (regularized) cost function, symbolic gradients, and updates 

12 norm_squared = sum([(layer.w**2).sum() for layer in self.layers] ) 

cost = self.layers[-1].cost(self)+\ 0.5*lambda*12_norm_squared/num_training_batches 
grads = T.grad(cost, self.params) 

updates = [(param, param-eta*grad) for param, grad in zip(self.params, grads) | 


这 几 行 ， 我 们 符号 化 地 给 出 了 规范 化 的 log-likelihood RARA, ERRERA T tah 
导数 ， 以 及 对 应 参数 的 更 新 方式 。Theano 让 我 们 通过 这 短 短 几 行 束 能 够 获得 这 些 效果 。 唯 一 
隐藏 的 是 计算 cost 包含 一 个 对 输出 层 cost 方法 的 调用 ; 该 代码 在 network3.py 中 其 他 地 
方 。 但 是 ， 总 之 代码 很 短 而 且 和 简单。 有 了 所 有 这 些 定 义 好 的 东西 ， 下 面 束 是 定义 
train_mini_batch FKIŻX, iż Theano 符号 函数 在 给 下 minibatch 索引 的 情况 下 使 用 updates 
来 更 新 Network 的 参数 。 类 似 地 ， validate mb accuracy 和 test_mb_accuracy 计算 在 任意 给 
定 的 minibatch 的 验证 集 和 测试 集合 上 Network 的 准确 度 。 通 过 对 这 些 范 数 进行 平均 ， 我 们 
可 以 计算 整个 验证 集 和 测试 数据 集 上 的 准确 度 。 


scp 方法 剩 下 的 束 是 可 以 自 解释 的 了 一 一 我 们 对 次 数 进行 迭代 ， 重 复 使 用 训练 数据 的 
minibatch 来 训练 网 络 ， 计 算 验 证 集 和 测试 集 上 的 准确 度 。 


好 了 ， 我 们 已 经 理解 了 network3.py 代码 中 大 多 数 的 重要 部 分 。 让 我 们 看 看 整个 程序 ， 你 不 
需 过 分 仔细 地 读 下 这 些 代 码 ， 但 是 应 该 享受 粗 看 的 过 程 ， 并 随时 深入 研究 那些 激发 出 你 好 奇 
地 代码 段 。 理 解 代 码 的 最 好 的 方法 融 是 通过 修改 代码 ， 增 加 额外 的 特征 或 者 重新 组 织 那些 你 
认为 能 够 更 加 简洁 地 完成 的 代码 。 代 码 后 面 ， 我 们 给 出 了 一 些 对 初学 者 的 建议 。 这 儿 是 代 
码 : 


在 GPU 上 使 用 Theano 可 能 会 有 点 难度 。 特 别 地 ， 很 容 在 从 GPU 中 拉 取 数据 时 出 现 错 

误 ， 这 可 能 会 让 运行 变 得 相当 慢 。 我 已 经 试看 避免 出 现 这 样 的 情况 ， 但 是 也 不 能 肯定 在 

代码 扩 天 后 出 现 一 些 问 题 。 对 于 你 们 过 到 的 问题 或 者 给 出 的 蕊 见 我 洗 耳 茶 听 
(mn@michaelnielsen.org) 。 


"""Nnetwork3.py 


~ ~ 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 
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A Theano-based program for training and running simple neural 
networks. 

Supports several layer types (fully connected, convolutional, max 
pooling, softmax), and activation functions (sigmoid, tanh, and 
rectified linear units, with more easily added). 

when run on a CPU, this program is much faster than network.py and 
network2.py. However, unlike network.py and network2.py it can also 
be run on a GPU, which makes it faster still. 

Because the code is based on Theano, the code is different in many 
ways from network.py and network2.py. However, where possible I have 
tried to maintain consistency with the earlier programs. In 
particular, the API is similar to network2.py. Note that I have 
focused on making the code simple, easily readable, and easily 
modifiable. It is not optimized, and omits many desirable features. 
This program incorporates ideas from the Theano documentation on 
convolutional neural nets (notably, 
http://deeplearning.net/tutorial/lenet.html ), from Misha Denil's 
implementation of dropout (https://github.com/mdenil/dropout ), and 
from Chris Olah (http://colah.github.io ). 


#### Libraries 

# Standard library 
import cPickle 
import gzip 


# Third-party libraries 

import numpy as np 

import theano 

import theano.tensor as T 

from theano.tensor.nnet import conv 

from theano.tensor.nnet import softmax 

from theano.tensor import shared_randomstreams 
from theano.tensor.signal import downsample 


# Activation functions for neurons 

def linear(z): return z 

def ReLU(z): return T.maximum(0.0, Z) 
from theano.tensor.nnet import sigmoid 
from theano.tensor import tanh 


HHHH Constants 
GPU = True 
if GPU: 
print "Trying to run under a GPU. If this is not desired, then modify "+\ 
"network3.py\nto set the GPU flag to False." 
try: theano.config.device = 'gpu' 
except: pass # it's already set 
theano.config.floatX = 'float32' 
else: 
print "Running with a CPU. If this is not desired, then the modify "+\ 
"network3.py to set\nthe GPU flag to True." 


#### Load the MNIST data 
def load_data_shared(filename="../data/mnist.pkl.gz"): 
f = gzip.open(filename, 'rb') 
training_data, validation_data, test_data = cPickle.load(f) 
f.close() 
def shared(data): 
"""Place the data into shared variables. This allows Theano to copy 
the data to the GPU, if one is available. 
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shared_x = theano.shared( 
np.asarray(data[o0|, dtype=theano.config.floatX), borrow=True) 
shared_y = theano.shared( 
np.asarray(data[i], dtype=theano.config.floatX), borrow=True) 
return shared_x, T.cast(shared_y, "int32") 
return [shared(training_data), shared(validation_data), shared(test_ data) | 


HHHH Main class used to construct and train networks 
class Network(object): 


def _ init __ (self, layers, mini batch_size): 
"uuTakes a list of layers , describing the network architecture, and 
a value for the mini batch_size to be used during training 
by stochastic gradient descent. 
self.layers = layers 
self.mini batch_size = mini batch_size 
self.params = [param for layer in self.layers for param in layer.params] 
self.x = T.matrix("x") 
self.y = T.ivector("y") 
init_layer = self.layers[0] 
init_layer.set_inpt(self.x, self.x, self.mini_batch_size) 
for j in xrange(i, len(self.layers)): 
prev_layer, layer = self.layers[j-i], self.layers[j] 
layer.set_inpt( 
prev_layer.output, prev _layer.output_dropout, self.mini batch_size) 
self.output = self.layers[-1]|.output 
self.output _dropout = self.layers[-1].output_dropout 


def SGD(self, training _ data, epochs, mini _batch_size, eta, 
validation_data, test _data, lmbda=0.0): 
"uuTrain the network using mini-batch stochastic gradient descent.""" 
training_x, training _y = training_data 
validation_x, validation_y = validation_data 
test_x, test_y = test data 


# compute number of minibatches for training, validation and testing 
num_training _batches = size(training _data)/mini batch_size 
num_validation_batches = size(validation_data)/mini_batch_size 
num_test_batches = size(test_data)/mini_batch_size 


# define the (regularized) cost function, symbolic gradients, and updates 
12 norm_squared = sum([(layer.w**2).sum() for layer in self.layers] ) 
cost = self.layers[-1].cost(self)+\ 
0.5*lmbda*12_norm_squared/num_training_batches 
grads = T.grad(cost, self.params) 
updates = [(param, param-eta*grad) 
for param, grad in zip(self.params, grads) ] 


# define functions to train a mini-batch, and to compute the 
# accuracy in validation and test mini-batches. 
1 = T.lscalar() # mini-batch index 
train mb = theano.function( 
[i], cost, updates=updates, 
givens={ 
self.x: 
training_x[i*self.mini_batch_size: (1it+1)*self.mini_batch_size], 
self.y: 
training_y[i*self.mini_batch_size: (it+1)*self.mini_batch_size] 
+) 
validate _mb_accuracy = theano.function( 
[i], self.layers[-1].accuracy(self.y), 
givens={ 
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self.x: 
validation_x[i*self.mini_batch_size: (1i+1)*self.mini_batch_size], 
self.y: 
validation_y[i*self.mini_batch_size: (1i+1)*self.mini_batch_size | 
+) 
test _mb_accuracy = theano.function( 
[i], self.layers[-1].accuracy(self.y), 
givens={ 
self.x: 
test_x[i*self.mini_batch_size: (it+1)*self.mini_batch_size], 
self.y: 
test_y[i*self.mini_batch_size: (1i+1)*self.mini_batch_size] 
+) 
self.test_mb_predictions = theano.function( 
[i], self.layers[-1].y_out, 
givens={ 
self.x: 
test_x[i*self.mini_batch_size: (1i+1)*self.mini_batch_size] 
+) 
# Do the actual training 
best_validation_accuracy = 0.0 
for epoch in xrange(epochs): 
for minibatch_index in xrange(num_training_batches): 
iteration = num _training_batches*epoch+minibatch_index 
if iteration % 1000 == 
print( "Training mini-batch number {0}".format(iteration) ) 
cost_ij = train_mb(minibatch_index) 
if (iteration+1) % num_training_batches == 
validation_accuracy = np.mean( 
[validate_mb_accuracy(j) for j in xrange(num_validation_batches ) | 
print("Epoch {0}: validation accuracy {1:.2%}".format ( 
epoch, validation_accuracy) ) 
if validation_accuracy >= best_validation_accuracy: 
print("This is the best validation accuracy to date.") 
best_validation_accuracy = validation_accuracy 
best_iteration = iteration 
if test_data: 
test_accuracy = np.mean( 
[test_mb_accuracy(j) for j in xrange(num_test_batches) | ) 
print('The corresponding test accuracy is {0:.2%}'.format( 
test_accuracy ) ) 
print( "Finished training network." ) 
print("Best validation accuracy of {0:.2%} obtained at iteration {1}".format( 
best_validation_accuracy, best_iteration) ) 
print("Corresponding test accuracy of {0:.2%}".format(test_accuracy) ) 


HHHH Define layer types 


class ConvPoolLayer(object): 
"""Used to create a combination of a convolutional and a max-pooling 
layer. A more sophisticated implementation would separate the 
two, but for our purposes we'll always use them together, and it 
Simplifies the code, so it makes sense to combine them. 


def _ init (self, filter_shape, image_shape, poolsize=(2, 2), 
activation_fn=sigmoid): 
"uu" filter_shape is a tuple of length 4, whose entries are the number 
of filters, the number of input feature maps, the filter height, and the 
filter width. 
“image_shape is a tuple of length 4, whose entries are the 
mini-batch size, the number of input feature maps, the image 
height, and the image width. 
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'poolsize is a tuple of length 2, whose entries are the y and 
x pooling sizes. 

self.filter_shape = filter_shape 

self.image_shape = image_shape 

self.poolsize = poolsize 

self.activation_fn=activation_fn 


initialize weights and biase: 


n_out = (filter_shape[0]*np.prod(filter_shape[2:])/np.prod(poolsize) ) 
self.w = theano.shared( 
np.asarray( 
np.random.normal(loc=0, scale=np.sqrt(1.0/n_out), size=filter_shape), 
dtype=theano.config.floatx), 
borrow=True) 
self.b = theano.shared( 
np.asarray( 
np.random.normal(loc=0, scale=1.0, size=(filter_shape[0],)), 
dtype=theano.config.floatx), 
borrow=True) 
self.params = [self.w, self.b] 


def set_inpt(self, inpt, inpt_dropout, mini _batch_size): 
self.inpt = inpt.reshape(self.image_shape) 
conv_out = conv.conv2d( 
input=self.inpt, filters=self.w, filter_shape=self.filter_shape, 
image_shape=self.image_shape) 
pooled_out = downsample.max_pool_2d( 
input=conv_out, ds=self.poolsize, ignore _border=True) 
self.output = self.activation_fn( 
pooled_out + self.b.dimshuffle('x', 0, 'x', 'x')) 


self.output _dropout = self.output # no dropou onvolutional Layei 
class FullyConnectedLayer(object): 
def _ init __ (self, n_in, n_out, activation _fn=sigmoid, p_dropout=0.0): 


self.n_in = n_in 

self.n_out = n out 
self.activation_fn = activation _fn 
self.p_dropout = p_dropout 


[nitialize weights and biases 
self.w = theano.shared( 
np.asarray( 
np.random.normal( 
loc=0.0, scale=np.sqrt(1.0/n_out), size=(n_in, n_out)), 
dtype=theano.config.floatx), 
name='w', borrow=True) 
self.b = theano.shared( 
np.asarray(np.random.normal(loc=0.0, scale=1.0, size=(n_out, )), 
dtype=theano.config.floatx), 
name='b', borrow=True) 


self.params = [self.w, self.b] 


def set_inpt(self, inpt, inpt_dropout, mini_batch_size): 

self.inpt = inpt.reshape((mini_batch_size, self.n_in) ) 

self.output = self.activation_fn( 
(i-self.p_dropout)*T.dot(self.inpt, self.w) + self.b) 

self.y_out = T.argmax(self.output, axis=1) 

self.inpt_dropout = dropout_layer ( 
inpt_dropout.reshape((mini_batch_size, self.n_in)), self.p_dropout ) 

self.output_dropout = self.activation_fn( 
T.dot(self.inpt_dropout, self.w) + self.b) 


def accuracy(self, y): 
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"Return the accuracy for the mini-batch." 
return T.mean(T.eq(y, self.y_out) ) 


class SoftmaxLayer(object): 


def _ init __ (self, n_in, n out, p_dropout=0.0): 

self.n_in = n_in 

self.n_out = n_out 

self.p_dropout = p_dropout 

# Initialize weights and biases 

self.w = theano.shared( 
np.zeros((n_in, n_out), dtype=theano.config.floatx), 
name='w', borrow=True) 

self.b = theano.shared( 
np.zeros((n_out, ), dtype=theano.config.floatx), 
name='b', borrow=True) 

self.params = [self.w, self.b] 


def set_inpt(self, inpt, inpt_dropout, mini_batch_size): 
self.inpt = inpt.reshape((mini_batch_size, self.n_in) ) 
self.output = softmax((i-self.p_dropout)*T.dot(self.inpt, self.w) + self.b) 
self.y_out = T.argmax(self.output, axis=1) 
self.inpt_dropout = dropout_layer ( 
inpt_dropout.reshape((mini_batch_size, self.n_in)), self.p_dropout ) 
self.output_dropout = softmax(T.dot(self.inpt_dropout, self.w) + self.b) 


def cost(self, net): 
"Return the log-likelihood cost." 
return -T.mean(T.log(self.output_dropout)[T.arange(net.y.shape[0]), net.y]) 


def accuracy(self, y): 
"Return the accuracy for the mini-batch." 
return T.mean(T.eq(y, self.y_out) ) 


HHHH Miscellanea 

def size(data): 
"Return the size of the dataset data ." 
return data[0|.get value(borrow=True).shape[0] 


def dropout_layer(layer, p_dropout): 
srng = shared_randomstreams.RandomStreams ( 
np.random.RandomState(0).randint(999999)) 
mask = srng.binomial(n=1, p=1-p_dropout, size=layer.shape) 
return layer*T.cast(mask, theano.config.floatX) 


i O 
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. Bal, so 方法 需要 用 户 手动 确定 训练 的 次 数 (epoch) 。 早 先 在 本 书 中 ， 我 们 讨论 了 
一 种 自动 选择 训练 次 数 的 方法 ， 也 就 是 early stopping。 修 改 network3.py 以 实现 Early 
stopping. 


e 增加 一 个 Network 方法 来 返回 在 任意 数据 集 上 的 准确 度 。 


e 修改 scp 方法 来 允许 学 习 率 刀 可 以 是 训练 次 数 的 函数 。 提 示 : 在 思考 这 个 问题 一 段 时 间 
后 ， 你 可 能 会 在 this link 找到 有 用 的 信息 。 
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。 EARS MKS Affi — PRE eA) es, HAR Z ILIRY Rv ARENA 
ko AZ network3.py 来 加 入 这 些 技术 。 注 意 : 除非 你 有 充分 多 的 内 存 ， 否 则 显 式 地 产 
生 整 个 扩展 数据 集 是 不 大 现实 的 。 所 以 要 考虑 一 些 变通 的 方法 。 


e 在 network3.py 中 增加 load 和 save 方法 。 


当前 的 代码 缺点 束 是 只 有 很 少 的 用 来 诊断 的 工具 。 你 能 想 出 一 些 诊 断 方法 告诉 我 们 网 络 
过 匹配 到 什么 程度 么 ?加 上 这 些 方 法 。 


e 我 们 已 经 对 rectified linear unit 及 sigmoid 和 tanh 函数 神经 元 使 用 了 同 祥 的 初始 方法 。 正 
如 这 里 所 说 ， 这 种 初始 化 方法 只 是 适用 于 sigmoid 本 数 。 假 设 我 们 使 用 一 个 全 部 使 用 
RLU 的 网 络 。 试 说 明 以 前 数 e 倍 调 整 网 络 的 权重 最 终 只 会 对 输出 有 冲 数 e 倍 的 影响 。 如 
果 最 后 一 层 是 softmax， 则 会 发 生 什么 样 的 变化 ?对 RLU 使 用 sigmoid 函数 的 初始 化 方 
法 会 怎么 样 ? 有 没有 更 好 的 初始 化 方法 ?注意 : 这 是 一 个 开放 的 问题 ， 并 不 是 说 有 一 个 
简单 的 目 包 含 答案 。 还 有 ， 思 考 这 个 问题 本 身 能 够 帮助 你 更 好 地 理解 包含 RLU 的 神经 网 
zę 


mo 


我 们 对 于 不 稳定 梯度 问题 的 分 析 实 际 上 是 针对 sigmoid 神经 元 的 。 如 果 是 RLU， 那 分 析 
又 会 有 什么 差异 ? 你 能 够 想 出 一 种 使 得 网 络 不 太 会 受到 不 稳定 梯度 问题 影响 的 好 方法 
么 ?注意 : 好 实际 上 就 是 一 个 研究 性 问题 。 实 际 上 有 很 多 容易 想到 的 修改 方法 。 但 我 现 
在 还 没有 研究 足够 深入 ， 能 告诉 你 们 什么 是 真正 的 好 技术 。 


图 像 识 别 领域 中 的 近期 进展 


在 1998 年 ，MNIST 数据 集 被 提出 来 ， 那 时 候 需 要 花费 数 周 能 够 获得 一 个 最 优 的 模型 ， 和 我 
们 现在 使 用 GPU 在 少 于 1 小 时 内 训练 的 模型 性 能 荐 很 多 。 所 以 ，MNIST 已 经 不 是 一 个 能 够 
推动 扩 术 边界 前 进 的 问题 了 ; 不 过 ， 现 在 的 训练 速度 让 MNIST 能 够 成 为 教学 和 学 习 的 样 例 。 
同时 ， 研 究 重心 也 已 经 发 生 了 转变 ， 现 代 的 研究 工作 包含 更 具 挑 战 性 的 图 像 识 别 问题 。 在 本 
节 ， 我 们 简短 介绍 一 些 近 期 使 用 神经 网 络 进行 图 像 识 别 上 的 研究 进展 。 


本 节 内 容 和 本 书 其 他 大 部 分 都 不 一 样 。 整 本 书 ， 我 都 专注 在 那些 可 能 会 成 为 持久 性 的 方法 上 
诸如 BP、 规 范 化 、 和 郑 积 网 络 。 我 已 经 尽量 避免 提 太 那些 在 我 写 书 时 很 热门 但 长 期 价值 
未 知 的 研究 内 容 了 。 在 科学 领域 ， 这 样 太 过 热门 容易 消逝 的 研究 太 多 了 ， 最 终 对 科学 发 展 的 
价值 却 是 很 微小 的 。 所 以 ， 可 能 会 有 人 怀疑 : “好 吧 ， 在 图 像 识别 中 近期 的 发 展 融 是 这 种 情况 
么 ?两 到 三 年 后 ， 事 情 料 发 生变 化 。 所 以 ， 肯 定 这 些 结果 仅仅 是 一 些 想 在 研究 前 治 阵 地 领先 
的 专家 的 专属 兴趣 而 已 ?为何 又 费力 来 讨论 这 个 呢 ?” 





这 种 怀疑 是 正确 的 ， 近 期 研究 论文 中 一 些 改良 的 细节 最 终 会 失去 其 自身 的 重要 性 。 过 去 几 年 
里 ， 我 们 已 经 看 到 了 使 用 深度 学 习 解 决 特别 困难 的 图 像 识 别 任务 上 巨大 进步 。 假 想 一 个 科学 
史学 者 在 2100 年 写 起 计算 机 视觉 。 他 们 肯定 会 料 2011 到 2015 (可 能 再 加 上 几 年 ) 这 几 年 
作为 使 用 深度 耸 积 网 络 获得 重大 突破 的 时 段 。 但 这 并 不 意味 着 深度 耸 积 网 络 ， 还 有 dropout、 
RLU 等 等 ， 在 2100 年 仍 在 使 用 。 但 这 确实 各 诉 我 们 在 思想 的 历史 上 ， 现 在 ， 正 发 生 看 重要 的 
转变 。 这 有 点 像 原 子 的 发 现 ， 抗 生 素 的 发 明 : 在 历史 的 尺度 上 的 发 明和 发 现 。 所 以 ， 尽 管 我 
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们 不 会 深入 这 些 细节 ， 但 仍 值得 从 目前 正在 发 生 的 研究 成 果 中 获得 一 些 命 人 兴奋 的 研究 发 
现 。 


The 2012 LRMD paper : 让 我 们 从 一 篇 来 自 Stanford 和 Google 的 研究 者 的 论文 开始 。 后 面 
将 这 篇 论文 简 记 为 LRMD， 前 四 位 作者 的 姓 的 首 字母 命名 。LRMD 使 用 和 神经 网 络 对 ImageNet 
的 图 片 进 行 分 类 ， 这 是 一 个 县 有 非常 挑战 性 的 图 像 识别 问题 。2011 年 ImageNet MAA T 
16, 000, 000 的 全 色 图 像 ， 有 20,000 个 类 别 。 图 像 从 开放 的 网 络 上 有 把 去 ， 由 Amazon 
Mechanical Turk 服务 的 工人 分 类 。 下 面 是 几 幅 ImageNet 的 图 像 : 





上 面 这 些 分 别 属于 ARa, REER, MAF, K 通 单 的 蝶 归 。 如 果 你 想 挑 战 一 下 ， 

你 可 以 访问 hand tools， 里 面包 含 了 一 系列 的 区 分 的 任务 ， 比 如 区 分 ARa wal, AA all 
及 其 他 十 几 种 类 型 的 创 子 和 其 他 的 类 别 。 我 不 知道 读者 你 是 怎么 样 一 个 人 ， 但 是 我 不 能 将 所 

有 这 些 工 具 类 型 都 确定 地 区 分 开 。 这 显然 是 比 MNIST 任务 更 具 挑 战 性 的 任务 。LRMD 网 络 获 
得 了 不 错 的 15.8% 的 准确 展 。 这 看 起 很 不 给 力 ， 但 是 在 先前 最 优 的 9.3% 准确 度 上 却 是 一 个 

大 的 突破 。 这 个 飞跃 告诉 人 们 ， 和 神经 网 络 可 能 会 成 为 一 个 对 非常 困难 的 图 像 识 别 任 务 的 强大 

武器 。 


The 2012 KSH paper : 在 2012 年 ， 出 现 了 一 篇 LRMD 后 续 人 研究 Krizhevsky, Sutskever and 
Hinton (KSH), KSH 使 用 一 个 受 限 ImageNet 的 子 集 数据 训练 和 测试 了 一 个 深度 巷 积 神经 网 
络 。 这 个 数据 集 是 机 器 学 习 竞 赛 常 用 的 一 个 数据 集 一 一 lImageNet Large-Scale Visual 
Recognition Challenge (ILSVRC) 。 使 用 一 个 竞赛 数据 集 可 以 方便 比较 神经 网 络 和 其 他 方法 
之 间 的 差异 。ILSVRC-2012 训练 集 包 含 120, 000 fg ImageNet 的 图 像 ， 共 有 1,000 类 。 验 
证 集 和 测试 集 分 别 包含 30, 000 4g 190, 000 幅 ， 也 都 是 同样 的 1,000 x, 


ILSVRC 竞赛 中 一 个 难点 是 许多 图 像 中 包含 多 个 对 象 。 假 设 一 个 图 像 展 示 出 一 只 拉 布 拉 多 犬 追 
逐一 只 足球 。 所 谓 “ 正 确 的 "分 类 可 能 是 拉 布 拉 多 大 。 但 是 算法 将 图 像 注 类 为 足球 束 应 该 被 惩罚 

么 ?由 于 这 样 的 模糊 性 ， 我 们 做 出 下 面 设 定 : 如 果实 际 的 ImageNet 分 类 是 出 于 算法 给 出 的 最 

可 能 的 5 类 ， 那 么 算法 最 终 被 认为 是 正确 的 。KSH 深度 肉 积 网 络 达到 了 84.7% 的 准确 度 ， 比 
第 二 名 的 73.8% 高 出 很 多 。 使 用 更 加 严格 度量 ，KSH 网 络 业 达 到 了 63.3% 的 准确 度 。 


我 们 这 里 会 简要 说 明 一 下 KSH 网 络 ， 因 为 这 是 后 续 很 多 工作 的 源头 。 而 且 它 也 和 我 们 之 前 给 
出 的 肉 积 网 络 相 关 ， 只 是 更 加 复 杀 精细 。KSH ERRESA, EAA GPU 上 训练 。 使 
用 两 个 GPU 因为 GPU 的 型 号 使 然 (NVIDIA GeForce GTX 580 没有 足够 大 的 内 存 来 存放 整 
个 网 络 ) 所 以 用 这 样 的 方式 进行 内 存 的 分 解 。 


KSH 网 络 有 了 个 隐藏 屋 。 前 5 个 隐藏 层 是 众 积 层 (可 能 会 包含 max-pooling) ， 而 后 两 个 隐 
藏 层 则 是 全 连接 层 。 输 出 层 则 是 1,000 的 softmax， 对 应 于 1,000 种 分 类 。 下 面 给 出 了 网 络 
的 架构 图 ， 来 自 KSH 的 论文 。 我 们 会 给 出 详细 的 解释 。 注 意 很 多 层 被 分 解 为 2 个 部 分 ， 对 应 
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输出 层 包 合 3 x 224 x 224 神经 元 ， 表 示 一 幅 224 x 224 的 图 像 的 RGB 值 。 回 想 一 下 ， 
ImageNet 包 合 不 同 分 辨 率 的 图 像 。 这 里 也 会 有 问题 ， 因 为 利 经 网 络 输入 层 通 剖 是 固定 的 大 
小 。KSH 通过 将 每 幅 图 进行 的 重 设 定 ， 使 得 短 的 边 长 度 为 256。 然 后 在 重 设 后 的 图 像 上 裁剪 
出 256 x 256 的 区 域 。 最 终 KSH M 256 x 256 的 图 像 中 抽取 出 随机 的 224 x 224 的 子 图 

(和 水 平反 射 )。 他 们 使 用 随机 的 方式 ， 是 为 了 扩展 训练 数据 ， 这 样 能 够 缓解 过 匹配 的 情 
况 。 在 大 型 网 络 中 这 样 的 方法 是 很 有 效 的 。 这 些 224 x 224 的 图 像 就 成 为 了 网 络 的 输入 。 在 
大 多 数 情形 下 ， 栽 前 的 图 像 仍 会 包含 原 图 中 主要 的 对 象 。 


现在 看 看 KSH 的 隐藏 层 ， 第 一 隐藏 层 是 一 个 谷 积 层 ， 还 有 max-pooling。 使 用 了 大 小 为 

11 x 11 的 局 部 感应 区 ， 和 大 小 为 4 的 步 长 。 总 共有 OG MEERA. FERRARO MD, 
分 别 存 放 在 两 块 GPU E, max-pooling 在 这 层 和 下 层 都 是 3x 3 区 域 进行 ， 由 于 人 允许 使 用 重 
#& HJ pooling 区 域 ，pooling 层 其 实 会 产生 两 个 像素 值 。 


Pooling layers In CNNs summarize the outputs of neighboring groups of neurons in the 
same kernel map. Traditionally, the neighborhoods summarized by adjacent pooling 
units do not overlap (e.g., [17, 11, 4]). To be more precise, a pooling layer can be 
thought of as consisting of a grid of pooling units spaced s pixels apart, each 
summarizing a neighborhood of size z x z centered at the location of the pooling unit. If 
we set s = z, we obtaln traditional local pooling as commonly employed in CNNs. If we 
set s < z, we obtain overlapping pooling. This is what we use throughout our network, 
with s = 2 and z = 3. This scheme reduces the top-1 and top-5 error rates by 0.4% and 
0.3%, respectively, as compared with the non-overlapping scheme s = 2, z = 2, which 
produces output of equivalent dimensions. We generally observe during training that 
models with overlapping pooling find it slightly more difficult to overfit. 


A_4meAeezBRE, HMIN—© max-pooling 步骤 。 使 用 了 5x 5 的 局 部 感知 区 ， 总 
共有 256 个 特征 映射 ， 在 每 个 GPU 上 各 分 了 128 个 。 注 意 到 ， 特 征 映 射 只 使 用 48 个 输入 
信道 ， 而 不 是 前 一 层 整 个 96 个 输出 。 这 是 因为 任何 单一 的 特征 映射 仅仅 使 用 来 自 同一 个 
GPU 的 输入 。 从 这 个 角度 看 ， 这 个 网 络 和 此 前 我 们 使 用 的 耸 积 网 络 结构 还 是 不 同 的 ， 尽 管 本 
质 上 仍 一 致 。 


第 三 、 四 和 五 隐藏 层 也 是 答 积 层 ， 但 和 前 两 层 不 同 的 是 : 他 们 不 包含 max-pooling 步 。 各 层 


参数 分 别 是 : (3) 384 个 特征 映射 ，3 & 3 的 局 部 感知 区 ，256 个 输入 信道 (4) 384 个 
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特征 映射 ， 其 中 3 x 3 的 局 部 感知 区 和 192 个 输入 信道 ; (5) 256 个 特征 映射 ，34 x 3 的 局 
部 感知 区 ， 和 192 个 输入 信道 。 注 意 第 三 层 包 含 一 些 GPU 间 的 通信 (如 图 所 示 ) 这 样 可 使 
得 特征 映射 能 够 用 上 所 有 256 个 输入 信道 。 


第 六 、 七 隐藏 层 是 全 连接 层 ， 其 中 每 屋 有 4,090 个 神经 元 。 
输出 层 是 一 个 1, 000 个 单元 的 softmax 层 。 


KSH 网 络 使 用 了 很 多 的 技术 。 放 弃 了 sigmoid 或 者 tanh 激活 函数 的 使 用 ， KSH 全 部 采用 
RLU， 显 著 地 加 速 了 训练 过 程 。KSH 网 络 用 有 将 近 60, 000, 000 的 参数 ， 所 以 ， 就 算 有 大 规 
模 的 数据 训练 ， 也 可 能 出 现 过 匹配 情况 。 为 了 克服 这 个 缺点 ， 作 者 使 用 了 随机 剪裁 策略 扩展 
了 训练 数据 集 。 另外 还 通过 使 用 |2 regularization 的 变 体 和 dropuout 来 克服 过 匹配 。 网 络 本 身 
使 用 基于 momentum 的 mini-batch 随机 梯度 下 降 进 行 训练 。 


Xe KSH 论文 中 诸多 核心 想法 的 概述 。 细 节 我 们 不 去 深究 ， 你 可 以 通过 仔细 阅读 论文 获 
得 。 或 者 你 也 可 以 参考 Alexandrite Krizhevsky 的 cuda-convnet 及 后 续 版 本 ， 这 里 包含 了 这 
些 想法 的 实现 。 还 有 基于 Theano 的 实现 也 可 以 在 这 儿 找 到 。 尽 管 使 用 多 GPU 会 让 情况 变 得 
复杂 ， 但 代码 本 身 还 是 类 似 于 之 前 我 们 宇 出 来 的 那些 。Caffe 神经 网 络 框架 也 有 一 个 KSH 网 
络 的 实现 ， 看 Model Zoo。 


The 2014 ILSVRC 竞赛 : 2012 年 后 ， 研 究 一 下 在 快速 推进 。 看 看 2014 年 的 ILSVRC 竞赛 。 
和 2012 一 样 ， 这 次 也 包括 了 一 个 120, 000 % aR, 1,000 种 类 别 ， 而 最 终 评 价 也 就 是 看 网 
络 输出 前 五 是 不 是 包含 正确 的 分 类 。 胜 利 的 团队 ， 基 于 Google 之 前 给 出 的 结果 ， 使 用 了 包含 
22 层 的 深度 疮 积 网 络 。 他 们 称 此 为 GoogLeNet, [Al LeNet-5 致敬 。GoogLeNet 达到 了 
93.33% 的 准确 率 远 超 2013 年 的 88.3% Clarifai 和 2012 年 的 KSH 84.7%, 


那么 GoogLeNet 93.33% 的 准确 率 又 是 多 好 呢 ? 在 2014 年 ， 一 个 研究 团队 写 了 一 篇 关于 
ILSVRC 竞赛 的 综述 文章 。 其 中 有 个 问题 是 人 类 在 这 个 竞赛 中 能 表现 得 如 何 。 为 了 做 这 件 事 ， 
他 们 构建 了 一 个 系统 让 人 类 对 ILSVRC 图 像 进行 分 类 。 其 作者 之 一 Andrej Karpathy 在 一 篇 博 
文中 解释 道 ， 让 人 类 达到 GoogLeNet 的 性 能 确实 很 困难 : 


...the task of labeling images with 5 out of 1000 categories quickly turned out to be 
extremely challenging, even for some friends in the lab who have been working on 
ILSVRC and its classes for a while. First we thought we would put It up on [Amazon 
Mechanical Turk]. Then we thought we could recruit paid undergrads. Then | organized 
a labeling party of intense labeling effort only among the (expert labelers) in our lab. 
Then | developed a modified interface that used GoogLeNet predictions to prune the 
number of categories from 1000 to only about 100. It was still too hard - people kept 
missing categories and getting up to ranges of 13-15% error rates. In the end | realized 
that to get anywhere competitively close to GoogLeNet, It was most efficient if | sat 
down and went through the painfully long training process and the subsequent careful 
annotation process myself... The labeling happened at a rate of about 1 per minute, but 
this decreased over time... Some images are easily recognized, while some images 
(such as those of fine-grained breeds of dogs, birds, or monkeys) can require multiple 
minutes of concentrated effort. | became very good at identifying breeds of dogs... 
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Based on the sample of images I worked on, the GoogLeNet classification error turned 
out to be 6.8%... My own error in the end turned out to be 5.1%, approximately 1.7% 
better. 


换 让 之， 一 个 专家 .级别 的 人 类 ， 非 党 艰难 地 检查 图 像 ， 付 出 很 大 的 精力 才能 够 微弱 胜 过 深度 
神经 网 络 。 实 际 上 ，Karpathy 指出 第 二 个 人 类 专 冢 ， 用 小 点 的 图 像样 本 训练 后 ， 只 能 达到 
12.0% BY top-5 错误 率 ， 明 显 弱 于 GoogLeNet。 大 概 有 一 半 的 错误 都 是 专家 “难以 发 现 和 认定 
正确 的 类 别 究 竟 是 什么 ” 


这 些 都 是 惊奇 的 结果 。 根 据 这 项 工作 ， 很 多 团队 也 报告 top-5 错误 率 实 际 上 好 过 5.1%。 有 时 
候 ， 在 媒体 上 做 报 道成 系统 有 超过 人 类 的 视觉 。 尽 壳 这 项 发 现 是 很 振奋 人 心 的 ， 但 是 这 样 的 
报道 只 能 算是 一 种 误解 ， 认 为 系统 在 视觉 上 超过 了 人 类 ， 事 实 上 并 非 这 样 。ILSVRC 竞赛 问题 
在 很 多 方面 都 是 受 限 的 一 一 在 公开 的 网 络 上 获得 图 像 并 不 具 各 在 实际 应 用 中 的 代表 性 | MH 
top-5 标准 也 是 非常 人 工 设 定 的 。 我 们 在 图 像 识 别 ， 或 者 更 宽泛 地 说 ， 计 算 机 视觉 方面 的 研 

完 ， 还 有 很 长 的 路 要 走 。 当 然 看 到 近 些 年 的 这 些 进展 ， 还 是 很 鼓舞 人 心 的 。 


其 他 研究 活动 : 上 面 关 注 于 ImageNet， 但 是 也 还 有 一 些 其 他 的 使 用 神经 网 络 进行 图 像 识别 的 
工作 。 我 们 也 介绍 一 些 进 展 。 


一 个 鼓舞 人 心 的 应 用 上 的 结果 就 是 Google 的 一 个 团队 做 出 来 的 ， 他 们 应 用 深度 耸 积 网 络 在 识 
别 Google 的 街景 图 像 库 中 街景 数字 上 。 在 他 们 的 论文 中 ， 对 接近 100, 000, 000 街景 数字 的 
自动 检测 和 自动 转述 已 经 能 打 到 与 人 类 不 相 上 下 的 程度 。 系 统 速 度 很 快 : 在 一 个 小 时 内 将 法 
国 所 有 的 街景 效 字 都 转述 了 。 他 们 说 道 : “拥有 这 种 新 数据 集 能 够 显 车 提高 Google Maps 在 一 
些 国家 的 地 理 精准 度 ， 尤 其 是 那些 缺少 地 理 编 码 的 地 区 。” 他 们 还 做 了 一 个 更 一 般 的 论断 : “我 
们 坚信 这 个 模型 ， 已 经 解决 了 很 多 应 用 中 字符 短 序列 的 OCR 问题 。 


我 可 能 已 经 留 下 了 印象 一 一 所 有 的 结果 都 是 全 人 兴奋 的 正面 结果 。 当 然 ， 目 前 一 些 有 趣 的 研 
客 工 作 也 报道 了 一 些 我 们 还 没 能 够 真 的 理解 的 根本 性 的 问题 。 例 如 ，2013 年 一 篇 论文 指出 ， 
深度 网 络 可 能 会 受到 有 效 忙 点 的 影响 。 看 看 下 面 的 图 示 。 左 侧 是 被 网 络 正确 分 类 的 ImageNet 
Ak Awe MRR FRY AR (使 用 中 间 的 噪声 进行 干扰 ) 结果 融 没 有 能 够 正确 分 类 。 
作者 发 现 对 每 幅 图 片 都 存在 这 样 的 “对 手 ? 图 像 ， 而 非 少量 的 特例 。 
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这 是 一 个 分 人 不 安 的 结果 。 论 文 使 用 了 基于 同样 的 航 广 泛 研 究 使 用 的 KSH 代码 。 尽 管 这 样 的 
伸 经 网 络 计算 的 函数 在 理论 上 都 是 连续 的 ， 结 果 表 明 在 实际 应 用 中 ， 可 能 会 全 到 很 多 非常 不 
连续 的 函数 。 更 糟 普 的 是 ， 他 们 将 会 以 青 离 我 们 下 党 的 方式 变 得 不 连续 。 真 是 烦心 啊 。 ¥ 
外 ， 现 在 对 这 种 不 连续 性 出 现 的 原因 还 没有 搞 清 楚 : ERA RRAGA ? 或 者 激活 了 画 效 ? 
又 或 是 网 络 的 架构 ?还 是 其 他 ?我 们 一 无 所 知 。 


现在 ， 这 些 问 题 也 没有 听 起 来 这 么 吓人 。 尽 管 对 手 图 像 会 出 现 ， 但 是 在 实际 场景 中 也 不 党 
见 。 正 如 论文 指出 的 那样 : 


对 手 有 反例 的 存在 看 起 来 和 网 络 能 获得 恨 好 的 泛 化 性 能 相 违 背 。 实 际 上 ， 如 果 网 络 可 以 很 
好 地 泛 化 ， 会 受到 这 些 难 以 区 分 出 来 的 对 手 反 例 怎 么 样 的 影响 ? 解释 是 ， 对 手 反 例 集 以 
特别 低 的 概率 出 现 ， 因 此 在 测试 集中 几乎 难以 发 现 ， 然 而 对 手 反 例 又 是 密集 的 A RIR 
有 理 数 那样 ) ， 所 以 会 在 每 个 测试 样本 附近 上 出 现 。 


我 们 对 神经 网 络 的 理解 还 是 太 少 了 ， 这 让 人 党 得 很 肖 表 ， 上 面 的 结果 仅仅 是 近期 的 研究 成 
果 。 当 然 了 ， 这 样 结果 带 来 一 个 主要 好 久 融 是 ， 众 生出 一 系列 的 研究 工作 。 例 如 ， 最 近 一 坊 
文章 说 明 ， 给 定 一 个 训练 好 的 伸 经 网 络 ， 可 以 产生 对 人 类 来 说 是 白 噪声 的 图 像 ， 但 是 网 络 能 
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够 料 其 确信 地 分 类 为 某 一 类 。 这 也 是 我 们 需要 人 退 寻 的 理解 神经 网 络 和 图 像 识别 应 用 上 的 研究 
Al. 


虽然 遇 到 这 么 多 的 困难 ， 前 途 倒 还 是 光明 的 。 我 们 看 到 了 在 众多 相当 困难 的 基准 任务 上 快速 
的 研究 进展 。 同 样 还 有 实际 问题 的 研究 进展 ， 例 如 前 面 提 到 的 街景 数字 的 识别 。 但 是 需要 注 
意 的 是 ， 仅 仅 看 到 在 那些 基准 任务 ， 乃 至 实际 应 用 的 进展 ， 是 不 够 的 。 因 为 还 有 很 多 根本 性 
的 现象 ， 我 们 对 其 了 解 甚 少 ， 融 像 对 手 图 像 的 存在 问题 。 当 这 样 根 本 性 的 问题 还 到 竺 发 现 
(或 者 解决 ) 时 ， 弟 目地 说 我 们 已 经 接近 最 终 图 像 识别 问题 的 答案 束 很 不 合适 了 。 这 样 的 根 
本 问题 当然 也 会 催生 出 不 断 的 后 续 研 究 。 


其 他 的 深度 学 习 模型 


在 整 本 书 中 ， 我 们 聚焦 在 解决 MNIST 数字 分 类 问题 上 。 这 一 “下 金 重 的 "问题 让 我 们 深入 理解 
了 一 些 强大 的 想法 : 随机 梯度 下 降 ，BP， 耸 积 网 络 ， 正 规 化 等 等 。 但 是 该 问题 却 也 是 相当 狭 
衬 的 。 如 果 你 研读 过 伸 经 网 络 的 研究 论文 ， 那 么 会 遇 到 很 多 这 本 书 中 未 和 曾 讨 论 的 想法 : 
RNN, Boltzmann Machine， 生 成 式 模型 ， 迁 移 学 习 ， 强 化 学 习 等 等 ...... 等 等 1 ( 太 多 了 ) 4 
经 网 络 是 一 个 广阔 的 领域 。 然 而 ， 很 多 重要 的 想法 都 是 我 们 书 中 探讨 过 的 那些 想法 的 变种 ， 
在 有 了 本 书 的 知识 基础 上 ， 可 能 需要 一 些 额外 的 努力 ， 便 可 以 理解 这 些 新 的 想法 了 。 所 以 在 
本 节 ， 我 们 给 出 这 些 想 法 的 一 些 介绍 。 介 绍 本 身 不 会 非常 细节 化 ， 可 能 也 不 会 很 深入 一 一 从 
若 要 达成 这 两 点 ， 这 本 书 就 得 扩展 相当 多 内 容 了 。 因 此 ， 我 们 接 下 来 的 讨论 是 偏重 思想 性 的 
启发 ， 尝 试 去 激发 这 个 领域 的 产生 丰富 的 概念 ， 并 将 一 些 丰富 的 想法 关联 于 前 面 已 经 介绍 过 
的 概念 。 我 也 会 提供 一 些 其 他 学 习 资 源 的 连接 。 当 然 ， 链 接 给 出 的 很 多 想法 也 会 很 快 被 超 
过 ， 所 以 推荐 你 学 会 搜索 最 新 的 研究 成 果 。 尽 管 这 样 ， 我 还 是 很 期 待 众多 本 质 的 想法 能 够 受 
到 足够 久 的 关注 。 





Recurrent Neural Networks (RNNS) : 在 前 馈 神 经 网 络 中 ， 单 独 的 输入 完全 确定 了 剩 下 的 层 
上 的 神经 元 的 激活 值 。 可 以 想象 ， 这 是 一 幅 静 态 的 图 景 : 网 络 中 的 所 有 事物 都 仆 固 定 了 ， 义 
于 一 种 "冰冻 结晶 "的 状态 。 但 假如 ， 我 们 允许 网 络 中 的 元 素 能 够 以 动态 方 陈 不 断 地 比 那 话 。 例 
如 ， 隐 藏 俐 经 元 的 行为 不 是 完全 由 有 前 一 层 的 隐藏 神经 元 ， 而 是 同样 受制 于 更 早 的 层 上 的 神经 
元 的 激活 值 。 这 样 肯 定 会 带 来 跟前 馈 俐 经 网 络 不 同 的 效果 。 也 可 能 隐藏 和 输出 层 的 俐 经 元 的 
激活 值 不 会 单单 由 当前 的 网 络 输入 决定 ， 而 且 包 含 了 前 面 的 输入 的 影响 。 


拥有 之 类 时 间 相 关 行 为 特性 的 神经 网 络 就 是 递归 俐 经 网 络 ， 凋 写作 RNN。 当 然 有 不 同 的 方式 
来 从 数学 上 给 出 RNN 的 形式 定义 。 你 可 以 参考 维基 百科 上 的 RNN 介 绍 来 看 看 RNN。 在 我 写 
作 本 书 的 时 候 ， 维 基 百 科 上 介绍 了 超过 13 种 不 同 的 模型 。 但 除了 效 学 细节 ， 更 加 一 般 的 想法 
E, RNN 是 菜 种 体现 出 了 随时 间 动 态 变化 的 特性 的 神经 网 络 。 也 之 不 奇怪 ，RNN 在 处 理 时 序 
数据 和 过 程 上 效果 特别 不 错 。 这 样 的 数据 和 过 程 正 是 语 首 识别 和 自然 语言 处 理 中 常见 的 研究 

对 象 。 


RNN 被 用 来 料 传 统 的 算法 思想 ， 上 比如 说 Turing 机 或 者 编程 语言 ， 和 神经 网 络 进行 联系 上 。 这 
篇 2014 年 的 论文 提出 了 一 种 RNN 可 以 以 python 程序 的 字符 级 表达 作为 输入 ， 用 这 个 表达 

来 预测 输出 。 简 单 说， 网 络 通过 学 习 来 理解 某 些 python 的 程序 。 第 二 篇 论文 同样 是 2014 年 
的 ， 使 用 RNN 来 设计 一 种 称 之 为 “神经 Turing 机 ”的 模型 。 这 是 一 种 通用 机 器 整个 结构 可 以 


null ww ai bbt. com 品 DODODODDODO 





null 


使 用 梯度 下 降 来 训练 。 作 者 训练 NTM 来 推断 对 一 些 简单 问题 的 算法 ， 上 比如 说 排序 和 复制 。 


不 过 正如 在 文中 提 到 的 ， 这 些 例子 都 是 极其 简单 的 模型 。 学 会 执行 print(398345+42598) 并 不 
能 让 网 络 称 为 一 个 正常 的 python 解 释 器 | 对 于 这 些 想法 ， 我 们 能 推进 得 多 远 也 是 未 知 的 。 结 
果 都 充满 了 好 奇 。 历 史上 ， 和 神经 网 络 已 经 在 传统 算法 上 失败 的 模式 识别 问题 上 取得 了 一 些 成 
功 。 另 外 ， 传 统 的 算法 也 在 神经 网 络 并 不 擅长 的 领域 里 占据 上 风 。 今 天 没有 人 会 使 用 神经 网 
络 来 实现 Web 服务 器 或 者 数据 库 程 序 。 研 究 出 将 神经 网 络 和 传统 的 算法 结合 的 模型 一 定 是 非 
BIE. RNN 和 RNN 给 出 的 启发 可 能 会 给 我 们 不 少 帮 助 。 RNN 同样 也 在 其 他 问题 的 解决 中 
发 挥 着 作用 。 在 语音 识别 中 ，RNN 是 特别 有 效 的 。 例 如 ， 基 于 RNN 的 方法 ， 已 经 在 音 位 识 
别 中 取得 了 准确 度 的 领先 。 同 祥 在 开发 人 类 语言 的 上 改进 模型 中 得 到 上 应用。 更 好 的 语言 模型 
意味 着 能 够 区 分 出 发 理 相 同 的 那些 词 。 例 如 ， 好 的 语言 模型 ， 可 以 告诉 我 们 “to infinity and 
beyond”Eb'two infinity and beyond" 更 可 能 出 现 ， 尽 管 两 者 的 发 理 是 相同 的 。RNN 在 茶 些 语言 
的 标准 测试 集 上 刷新 了 记录 。 


在 语音 识别 中 的 这 项 研究 其 实 是 包含 于 更 宽泛 的 不 仅仅 是 RNN 而 是 所 有 类 型 的 深度 神经 网 络 
的 应 用 的 一 部 分 。 例 如 ， 基 于 神经 网 络 的 方法 在 大 规模 词汇 的 连续 语 首 识 别 中 获得 极 佳 的 结 
果 。 另 外 ， 一 个 基于 深度 网 络 的 系统 已 经 用 在 了 Google 的 Android 操作 系统 中 GER 
Vincent Vanhoucke's 2012-2015 papers) 


我 刚刚 讲 完 了 RNN 能 做 的 一 小 部 分 ， 但 还 未 提 太 他 们 如 何 工 作 。 可 能 你 并 不 府 异 在 前 馈 伸 经 
网 络 中 的 很 多 想法 同样 可 以 用 在 RNN 中 。 尤 其 是 ， 我 们 可 以 使 用 梯度 下 降 和 BP 的 直接 的 修 
改 来 训练 RNN。 还 有 其 他 一 些 在 前 馈 俐 经 网 络 中 的 想法 ， 如 正规 化 技术 ， 葵 积 和 代价 函数 等 
都 在 RNN 中 非常 有 效 。 还 有 我 们 在 书 中 讲 到 的 很 多 技术 都 可 以 适 配 一 下 RNN 场景 。 


Long Short-term Memory units(LSTMS) : 影响 RNN 的 一 个 挑战 是 前 期 的 模型 会 很 难 训 
练 ， 其 至 比 前 馈 俐 经 网 络 更 难 。 原 因 束 是 我 们 在 上 一 章 提 到 的 不 稳定 梯度 的 问题 。 回 想 一 

下 ， 这 个 问题 的 通常 表现 惑 是 在 反 向 传播 的 时 候 梯 度 越 交 越 小 。 这 束 使 得 前 期 的 层 学 习 非 帝 
缓慢 。 在 RNN 中 这 个 问题 更 加 糟 料 ， 因 为 梯度 不 仅仅 通过 层 反 向 传播 ， 还 会 根据 时 间 进 行 反 
向 传播 。 如 果 网 络 运行 了 一 段 很 长 的 时 间 ， 残 会 使 得 梯度 特别 不 稳定 ， 学 不 到 东西 。 拉 运 的 
是 ， 可 以 引入 一 个 成 为 long short-term memory 的 单元 进入 RNN 中 。LSTM 最 早 是 由 
Hochreiter 和 Schmidhuber 在 1997 年 提出 ， 融 是 为 了 解决 这 个 不 稳定 梯度 的 问题 。LSTM 
让 RNN 训练 变 得 相当 简单 ， 很 多 近期 的 论文 《包括 我 在 上 面 给 出 的 那些 ) 都 是 用 了 LSTM 
或 者 相关 的 想法 。 


深度 信念 网 络 ， 生 成 式 模 型 和 Boltzmann 机 : 对 深度 学 习 的 兴趣 产生 于 2006 年 ， 最 早 的 论 
文忠 是 解释 如 何 训 练 称 为 深度 信念 网 络 (DBN) 的 网 络 。 


参见 Geoffrey Hinton, Simon Osindero 和 Yee-Whye Teh 在 2006 年 的 A fast learning 
algorithm for deep belief nets , 及 Geoffrey Hinton 和 Ruslan Salakhutdinov 在 2006 年 
的 相关 工作 Reducing the dimensionality of data with neural networks 


DBN 在 之 后 一 段 时 间 内 很 有 影响 力 ， 但 近 些 年 前 馈 网 络 和 RNN 的 流行 ， 盖 过 了 DBN 的 风 
头 。 尽 管 如 此 ，DBN 还 是 有 几 个 有 趣 的 特性 。 一 个 惑 是 DBN 是 一 种 生成 式 模型 。 在 前 馈 网 
络 中 ， 我 们 指定 了 输入 的 激活 函 效 ， 然 后 这 些 激活 本 数 便 决 定 了 网 络 中 后 面 的 激活 值 。 而 像 
DBN 这 样 的 生成 陈 模型 可 以 类 似 这 样 使 用 ， 但 是 更 加 有 用 的 可 能 融 是 指定 某 些 特征 神经 元 的 
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值 ， 然 后 进行 " 反 同 运行 ”， 产 生 输 入 激活 的 值 。 具 体 讲 ，DBN 在 手写 数字 图 像 上 的 训练 同样 
可 以 用 来 生成 和 手写 数字 很 像 的 图 像 。 换 名 话说 ，DBN 可 以 学 习 写 字 的 能 力 。 所 以 ， 生 成 式 
模型 更 像 人 类 的 大 脑 : 不 仅 可 以 读数 字 ， 还 能 够 写 出 数字 。 用 Geoffrey Hinton 本 人 的 话 就 

是 : “要 识别 对 象 的 形状 ， 先 学 会 生成 图 像 。” (to recognize shapes, first learn to generate 
images) 另 一 个 是 DBN 可 以 进行 无 监督 和 半 监 督 的 学 习 。 例 如 ， 在 使 用 图 像 数据 学 习 时 ， 

DBN 可 以 学 会 有 用 的 特征 来 理解 其 他 的 图 像 ， 即 使 ， 训 练 图 像 是 无 标记 的 。 这 种 进行 非 监 督 
学 习 的 能 力 对 于 根本 性 的 科学 理由 和 实用 价值 《如 果 完 成 的 足够 好 的 话 ) 来 说 都 是 极其 有 趣 
的 。 


所 以 ， 为 何 DBN 在 已 经 获得 了 这 些 引 人 注目 的 特性 后 ， 仍 然 逐 渐 消失 在 深度 学 习 的 浪潮 中 
呢 ? 部 分 原因 在 于 ， 前 馈 网 络 和 RNN 已 经 获得 了 很 多 很 好 的 结果 ， 例 如 在 图 像 和 话音 识别 的 
标准 测试 任务 上 的 突破 。 所 以 大 家 把 注意 力 转 到 这 些 模 型 上 并 不 奇怪 ， 这 其 实 也 是 很 合理 
的 。 然 而 ， 这 里 隐藏 着 一 个 推论 。 研 究 领域 里 通常 是 赢 者 通 吃 的 规则 ， 所 以 ， 几 乎 所 有 的 注 
意 力 集中 在 最 流行 的 领域 中 。 这 会 给 那些 进行 目前 还 不 很 流行 方向 上 的 研究 人 员 很 大 的 不 

力 ， 哩 然 他 们 的 研究 长 期 的 价值 非常 重要 。 我 个 人 的 观点 是 DBN 和 其 他 的 生成 式 模型 应 该 获 
得 更 多 的 注意 。 并 且 我 对 今后 如 果 DBN 或 者 相关 的 模型 超过 目前 流行 的 模型 也 晓 不 府 异 。 欲 
了 解 DBN， 参 考 这 个 DBN 综述 。 还 有 这 篇 文章 也 很 有 用 。 虽然 没有 主要 地 将 DBN， 但 是 已 
经 包含 了 很 多 天 于 DBN 核心 组 件 的 受 限 Boltzmann 机 的 有 价值 的 信息 。 


其 他 想法 : 在 神经 网 络 和 深度 学 习 中 还 有 其 他 哪些 正在 进行 的 研究 ? 恩 ， 其 实 还 有 很 多 大 量 
的 其 他 美妙 的 工作 。 热 门 的 领域 包含 使 用 神经 网 络 来 做 目 然 语言 处 理 natural language 
processing、 机 器 翻译 machine translation， 和 更 加 惊喜 的 应 用 如 音乐 信息 学 music 
informatics。 当 然 其 他 还 有 不 少 。 在 读者 完成 本 书 的 学 习 后 ， 应 该 可 以 跟 上 其 中 奋 干 领域 的 近 
期 工作 ， 可 能 你 还 需要 填补 一 些 背 景 知识 的 缺漏 。 在 本 节 的 最 后 ， 我 再 提 一 篇 特别 有 趣 的 论 
文 。 这 篇 文章 将 深度 耸 积 网 络 和 一 种 称 为 强化 学 习 的 扩 术 来 学 习 玩 电 子 游 戏 play video 
games well (参考 这 里 this followup) 。 其 想法 是 使 用 耸 积 网 络 来 简化 游戏 界面 的 像素 数 气 ， 
将 数据 转化 成 一 组 特征 的 简化 集合 ， 最 终 这 些 信息 被 用 来 确定 采用 什么 样 的 操 

作 : “上”" "FF" “开火 "等 。 特 别 有 趣 的 是 单一 的 网 络 学 会 7 款 中 不 同 的 经 典 游戏 ， 其 中 3 款 
网 络 的 表现 已 经 超过 了 人 类 专家 。 现 在 ， 这 听 起 来 是 嗪 头 ， 当 然 他 们 的 标题 也 挺 抓 眼球 的 
一 一 “Playing Atari with reinforcement learning"。 但 是 透 过 表象 ， 想 想 系统 以 原始 像素 数据 作 
为 输入 ， 它 甚至 不 知道 游戏 规则 | 从 数据 中 学 会 在 几 种 非常 不 同 且 相当 敌对 的 场景 中 做 出 高 
质量 的 决策 ， 这 些 场景 每 个 都 有 自己 复杂 的 规则 集合 。 所 以 这 的 解决 是 非常 干净 利落 的 。 


伸 经 网 络 的 未 来 


意图 驱动 的 用 户 接口 : 有 个 很 古老 的 笑话 是 这 么 说 的 : “一 位 不 耐烦 的 教授 对 一 个 困惑 的 学 生 
说 道 ，' 不 要 光 听 我 说 了 什么 ， 要 听 懂 我 说 的 含义 。”"。 历 史上 ， 计 算 机 通常 是 扮演 了 笑话 中 困 
惑 的 学 生 这 样 的 角色 ， 对 用 户 表 示 的 完全 不 知晓 。 而 现在 这 个 场景 发 生 了 变化 。 我 仍然 记得 
HO Google 搜索 的 打 错 了 一 个 查询 ， 搜 索引 等 告诉 了 我 “你 是 否 要 的 是 [这 个 正确 的 查 

询 ]?”， 然 后 给 出 了 对 应 的 搜索 结果 。Google 的 CEO Larry Page 佛经 描述 了 最 优 搜索 引擎 就 
是 准确 理解 用 户 查 询 的 含义 ， 并 给 出 对 应 的 结果 。 


这 融 是 意图 驱动 的 用 户 接口 的 愿景 。 在 这 个 场景 中 ， 不 是 直接 对 用 户 的 查询 词 进行 结果 的 反 
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馈 ， 搜 索引 擎 使 用 机 器 学 习 技 术 对 大 量 的 用 户 输入 数据 进行 分 析 ， 人 研究 查询 本 身 的 含义 ， 并 
通过 这 些 发 现 来 进行 合理 的 动作 以 提供 最 优 的 搜索 结果 。 


而 意图 驱动 接口 这 样 的 概念 也 不 仅仅 用 在 搜索 上 。 在 接 下 来 的 数 十 年 ， 数 以 千 计 的 公司 会 将 
产品 建立 在 机 器 学 习 来 设计 满足 更 高 的 准确 率 的 用 户 接 口上 ， 准 确 地 把 握 用 户 的 意图 。 现 在 
我 们 也 看 到 了 一 些 早期 的 例子 : 如 茶 果 的 Siri ; Wolfram Alpha ; IBM 的 Watson ; 可 以 对 照片 
和 视频 进行 注解 的 系统 ; 还 有 更 多 的 。 


大 多 数 这 类 产品 会 失败 。 启 发 式 用 户 接口 设计 非常 困难 ， 我 期 望 有 更 多 的 公司 会 使 用 强大 的 
机 器 学 习 技术 来 构建 无 聊 的 用 户 接口 。 最 优 的 机 器 学 习 并 不 会 在 你 自己 的 用 户 接口 设计 很 粳 
糕 时 发 挥 出 作用 。 但 是 肯定 也 会 有 能 够 胜出 的 产品 。 随 看 时 间 推 移 ， 人 类 与 计算 机 的 天 系 也 
会 发 生 重大 的 改变 。 不 久 以 前 ， 上 比如 说 ，2005 年 一 一 用 户 从 计算 机 那里 得 到 的 是 准确 度 。 因 
此 ， 很 大 程度 上 计算 机 很 古板 的 ; 一 个 小 小 的 分 号 放 错 便 会 完全 改变 和 计算 机 的 交互 含义 。 

但 是 在 以 后 数 十 年 内 ， 我 们 期 符 看 创造 出 意图 驱动 的 用 户 借款 购 ， 这 也 会 显 着 地 改变 我 们 在 
与 计算 机 交互 的 期 望 体 验 。 


机 器 学 习 ， 数 据 科学 和 创新 的 循环 : 当然 ， 机 器 学 习 不 仅仅 会 被 用 来 建立 意图 驱动 的 接口 。 
另 一 个 有 趣 的 应 用 是 数据 科学 中 ， 机 器 学 习 可 以 找到 藏 在 数据 中 的 “ 确 知 的 未 知 ”"。 这 已 经 是 非 
剃 流行 的 领域 了 ， 也 有 很 多 的 文章 和 书 厌 介绍 了 这 一 后 ， 所 以 本 文 不 会 涉及 太 多 。 但 我 想 谈 
谈 比 较 少 讨论 的 一 点 ， 这 种 流行 的 后 果 : 长 期 看 来 ， 很 可 能 机 器 学 习 中 最 大 的 突破 并 不 会 任 
何 一 种 单一 的 概 仿 突破。 更 可 能 的 情况 是 ， 最 大 的 突破 是 ， 机 器 学 习 研 究 会 获得 丰厚 的 成 
果 ， 从 应 用 到 数据 科学 及 其 他 领域 。 如 果 公 司 在 机 器 学 习 研 究 中 投入 1 美元 ， 则 有 1 美元 加 
10 美 分 的 回报 ， 那 么 机 器 学 习 研 究 会 有 很 充足 的 资金 保证 。 换 言 之 ， 机 器 学 习 是 驱动 几 个 主 
要 的 新 市 场 和 扩 术 成 长 的 领域 出 现 的 引擎 。 结 果 融 是 出 现 拥 有 精通 业务 的 的 大 团队 ， 能 够 获 
取 足 够 的 资源 。 这 样 束 能 够 料 机 器 学 习 推 同 更 新 的 高 度 ， 创 造 出 更 多 市 场 和 机 会 ， 一 种 高 级 
创新 的 循 坏 。 


伸 经 网 络 和 深度 学 习 的 角色 : 我 已 经 探讨 过 机 器 学 习 会 成 为 一 个 技术 上 的 新 机 遇 创 建 者 。 那 
么 神经 网 络 和 深度 学 习作 为 一 种 技术 又 会 有 什么 样 独特 的 贡献 呢 ? 


为 了 更 好 地 回答 这 个 问题 ， 我 们 来 来 看 看 历史 。 早 在 1980 FR, Asters ri T 
和 乐观 ， 尤 其 是 在 BP 被 大 家 广泛 知晓 后 。 而 在 1990 年 代 ， 这 样 的 兴奋 逐渐 冷却 ， 机 器 学 习 
领域 的 注意 力 转移 到 了 其 他 技术 上 ， 如 SVM。 现 在 ， 神 经 网 络 肉 土 重 来 ， 刷 新 了 几乎 所 有 的 
记录 ， 在 很 多 问题 上 也 都 取得 了 胜利 。 但 是 谁 又 能 说 ， 明 天 不 会 有 一 种 新 的 方法 能 够 击败 伸 
经 网 络 ? 或 者 可 能 神经 网 络 研 究 的 进程 又 会 阻 洋 ， 等 不 来 没有 任何 的 进展 ? 


所 以 ， 可 能 更 好 的 方式 是 看 看 机 器 学 习 的 未 来 而 不 是 单单 看 伸 经 网 络 。 还 有 个 原因 是 我 们 对 
神经 网 络 的 理解 还 是 太 少 了 。 为 何 昼 经 网 络 能 够 这 么 好 地 泛 化 ?为 何在 给 定 大 规模 的 学 习 的 
参数 后 ， 采 取 了 一 些 方 法 后 可 以 避免 过 匹配 ?为 何 神 经 网 络 中 随机 梯度 下 降 很 有 效 ? 在 数据 
集 扩 展 后 ， 俐 经 网 络 又 能 达到 什么 样 的 性 能 ? 如 ， 如 果 ImageNet 扩大 10 倍 ， 神 经 网 络 的 性 
能 会 比 其 他 的 机 器 学 习 技术 好 多 少 ? 这 些 都 是 简单 ， 根 本 的 问题 。 当 前 ， 我 们 都 对 它们 理解 
的 很 少 。 所 以 ， 要 说 者 经 网 络 在 机 器 学 习 的 未 来 要 扮演 什么 样 的 角色 ， 很 难 回答 。 


我 会 给 出 一 个 预测 : 我 相信 ， 深 度 学 习 会 继续 发 展 。 学 习 概念 的 层次 特性 、 构 建 多 层 抽象 的 
能 力 ， 看 起 来 能 够 从 根本 上 解释 世界 。 这 也 并 不 是 说 未 来 的 深度 学 习 研 究 者 的 想法 发 生变 
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变 。 如 果 我 们 不 再 将 最 终 的 系统 限制 在 神经 网 络 上 时 ， 这 些 转变 将 会 更 加 巨大 。 但 人 们 还 是 
在 进行 深度 学 习 的 研究 。 


神经 网 络 和 深度 学 习 将 会 主导 人 工 镶 能 ? 本 书 集中 在 使 用 神经 网 络 来 解决 具体 的 任务 ， 如 图 
(ROK, 现在 更 进一步 ， 问 : 通用 思维 机 器 会 怎么 样 ?神经 网 络 和 深度 学 习 能 够 帮助 我 们 解 
决 GEJ) 人 工 智 能 (AI) 的 问题 么 ? 如 果 可 以 ， 以 目前 深度 学 习 领 域 的 发 展 速度 ， 我 们 能 
够 期 符 通 用 Al 在 未 来 的 发 展 么 ? 认真 探讨 这 个 问题 可 能 又 需要 另 写 一 本 书 。 不 过 ， 我 们 可 以 
给 点 意见 。 其 想法 基于 Conway's law : 


任何 设计 了 一 个 系统 的 组 织 .……. 最 终 会 不 可 避免 地 产生 一 个 设计 ， 其 结构 本 身 是 这 个 组 


织 的 交流 结构 


所 以 ， 打 个 比方 ，Conway 法 则 告诉 我 们 波音 747 客机 的 设计 会 镜像 在 设计 波音 747 那 时 的 
波音 及 其 承包 丙 的 组 织 结构 。 或 者 ， 简 单 举例 ， 假 设 一 个 公司 开发 一 款 复 条 的 软件 应 用 。 如 
果 应 用 的 dashboard 会 集成 一 些 机 器 学 习 算 法 ， 设 计 dashboard 的 人 员 最 好 去 找 公 司 的 机 器 
学 习 专 家 讨论 一 下 。Conway 法 则 就 是 这 种 观察 的 描述 ， 可 能 更 加 宏大 。 第 一 次 听 到 
Conway 法 则 ， 很 多 人 的 反应 是 :“ 好 吧 ， 这 不 是 很 显然 么 ?” 或 者 “这 是 不 是 不 对 啊 ?” 让 我 
来 对 第 二 个 观点 进行 分 析 。 作 为 这 个 反对 的 例子 ， 我 们 可 以 看 看 波音 的 例子 : 波音 的 审计 部 
门 会 在 哪里 展示 747 的 设计 ?他 们 的 清洁 部 门 会 怎么 样 ? 内 部 的 食品 供应 ? 结果 融 是 组 织 的 
这 些 部 门 可 能 不 会 显 式 地 出 现在 747 所 在 的 任何 地 方 。 所 以 我 们 应 该 理解 Conway JAR) Re 
仅仅 指 那 些 显 式 地 设计 和 工程 的 组 织 部 门 。 
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